Порівняння GPT-4, Claude та нашої власної моделі для…, блог MyChatBot

Порівняння GPT-4, Claude та нашої власної моделі для голосу

Ми бенчмаркували п'ять моделей на задачі voice-агента в 5 000 висловлювань. Ось що ми знайшли про компроміси між якістю, латентністю і вартістю.

Анна Роман

Lead Researcher

Mar 20, 2026

Бенчмарк

5 000 voice-агент висловлювань з реальних клієнтських розмов (анонімізованих). Три типи задач: small talk, структуроване збирання інформації, multi-step reasoning. Порівняні моделі: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B та популярна open-source 70B.

Висновки

На small talk, усі моделі практично рівні. Різниця в якості, шум. Latency і вартість домінують у виборі.

На structured information gathering, Claude і наша 13B виграють. Вони слідують інструкціям надійніше.

На multi-step reasoning, GPT-4o і наша 70B ведуть. Значний gap до інших моделей.

Що це означає

Немає «найкращої» моделі, є найкраща модель для кожного turn. Routing per-turn значно перемагає вибір однієї моделі для всього.

Наша продакшн-система маршрутизує ~70% turns на малі швидкі моделі, ~25% на середні, ~5% на найбільшу. Якість тримається; вартість падає значно.

#ml#voice#benchmarks

Анна Роман

Lead Researcher

Веде наш applied ML research. Багато публікацій про multi-agent системи. Вважає, що хороші eval-и, це 80% хорошого AI.

Порівняння GPT-4, Claude та нашої власної моделі для голосу

Бенчмарк

Висновки

Що це означає

Спробувати MyChatBot безкоштовно

Більше від AI Research

Чому ми натренували власну embedding-модель

Prompt engineering у продакшен-масштабі

Voice Agent v2: у 3× швидше, на 40% дешевше, 14 мовами

Збережіть свого агента, щоб продовжити