Все публикации
AI Research 10 хв читання

Поривняння GPT-4, Claude и нашои власнои модели для голоса

Мы бенчмаркували п'ят моделей на задачи voice-агента в 5 000 висловлювань. Вот что мы знайшлы о компромисы между качеством, латентнистю и стоимостью.

Анна Роман
Lead Researcher
Mar 20, 2026

Бенчмарк

5 000 voice-агент висловлювань с реальних клиентских разговоров (анонимизованих). Три типи задач: small talk, структуроване збирання информации, multi-step reasoning. Поривняни модели: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B и популярна open-source 70B.

Висновки

На small talk, все модели практически ривни. Ризниця в качества, шум. Latency и стоимость доминують в вибори.

На structured information gathering, Claude и наша 13B виграют. Они слидують инструкциям надийнише.

На multi-step reasoning, GPT-4o и наша 70B ведут. Значний gap до других моделей.

Гистограма результатов бенчмарка
Гистограма результатов бенчмарка

Что это означает

Немает «найкращои» модели, есть лучшая модель для каждого turn. Routing per-turn значно перемагает вибир одниеи модели для всього.

Наша продакшн-система маршрутизуе ~70% turns на маленькие быстрые модели, ~25% на середни, ~5% на найбильшу. Качество тримается; стоимость падает значно.

#ml#voice#benchmarks
Анна Роман
Lead Researcher

Ведёт наш applied ML research. Много публикацей о multi-agent системы. Вважает, что хорошие eval-и, это 80% хорошого AI.

Попробовать MyChatBot бесплатно

Настройте своего первого AI-агента за 10 минут. Картка не нужна.

Бесплатный пробний период