Усі публікації
AI Research 10 хв читання

Порівняння GPT-4, Claude та нашої власної моделі для голосу

Ми бенчмаркували п'ять моделей на задачі voice-агента в 5 000 висловлювань. Ось що ми знайшли про компроміси між якістю, латентністю і вартістю.

Анна Роман
Lead Researcher
Mar 20, 2026

Бенчмарк

5 000 voice-агент висловлювань з реальних клієнтських розмов (анонімізованих). Три типи задач: small talk, структуроване збирання інформації, multi-step reasoning. Порівняні моделі: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B та популярна open-source 70B.

Висновки

На small talk, усі моделі практично рівні. Різниця в якості, шум. Latency і вартість домінують у виборі.

На structured information gathering, Claude і наша 13B виграють. Вони слідують інструкціям надійніше.

На multi-step reasoning, GPT-4o і наша 70B ведуть. Значний gap до інших моделей.

Гістограма результатів бенчмарка
Гістограма результатів бенчмарка

Що це означає

Немає «найкращої» моделі, є найкраща модель для кожного turn. Routing per-turn значно перемагає вибір однієї моделі для всього.

Наша продакшн-система маршрутизує ~70% turns на малі швидкі моделі, ~25% на середні, ~5% на найбільшу. Якість тримається; вартість падає значно.

#ml#voice#benchmarks
Анна Роман
Lead Researcher

Веде наш applied ML research. Багато публікацій про multi-agent системи. Вважає, що хороші eval-и, це 80% хорошого AI.

Спробувати MyChatBot безкоштовно

Налаштуйте свого першого AI-агента за 10 хвилин. Картка не потрібна.

Безкоштовний пробний період