Поривняння GPT-4, Claude и нашои власнои модели для…, блог MyChatBot

Поривняння GPT-4, Claude и нашои власнои модели для голоса

Мы бенчмаркували п'ят моделей на задачи voice-агента в 5 000 висловлювань. Вот что мы знайшлы о компромисы между качеством, латентнистю и стоимостью.

Анна Роман

Lead Researcher

Mar 20, 2026

Бенчмарк

5 000 voice-агент висловлювань с реальних клиентских разговоров (анонимизованих). Три типи задач: small talk, структуроване збирання информации, multi-step reasoning. Поривняни модели: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B и популярна open-source 70B.

Висновки

На small talk, все модели практически ривни. Ризниця в качества, шум. Latency и стоимость доминують в вибори.

На structured information gathering, Claude и наша 13B виграют. Они слидують инструкциям надийнише.

На multi-step reasoning, GPT-4o и наша 70B ведут. Значний gap до других моделей.

Что это означает

Немает «найкращои» модели, есть лучшая модель для каждого turn. Routing per-turn значно перемагает вибир одниеи модели для всього.

Наша продакшн-система маршрутизуе ~70% turns на маленькие быстрые модели, ~25% на середни, ~5% на найбильшу. Качество тримается; стоимость падает значно.

#ml#voice#benchmarks

Анна Роман

Lead Researcher

Ведёт наш applied ML research. Много публикацей о multi-agent системы. Вважает, что хорошие eval-и, это 80% хорошого AI.

Поривняння GPT-4, Claude и нашои власнои модели для голоса

Бенчмарк

Висновки

Что это означает

Попробовать MyChatBot бесплатно

Больше от AI Research

Почему мы натренували власну embedding-модель

Prompt engineering в продакшен-масштабе

Voice Agent v2: в 3× быстрее, на 40% дешевле, 14 языками

Сохраните своего агента, чтобы продолжить