Бенчмарк
5 000 voice-агент висловлювань з реальних клієнтських розмов (анонімізованих). Три типи задач: small talk, структуроване збирання інформації, multi-step reasoning. Порівняні моделі: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B та популярна open-source 70B.
Висновки
На small talk, усі моделі практично рівні. Різниця в якості, шум. Latency і вартість домінують у виборі.
На structured information gathering, Claude і наша 13B виграють. Вони слідують інструкціям надійніше.
На multi-step reasoning, GPT-4o і наша 70B ведуть. Значний gap до інших моделей.
Що це означає
Немає «найкращої» моделі, є найкраща модель для кожного turn. Routing per-turn значно перемагає вибір однієї моделі для всього.
Наша продакшн-система маршрутизує ~70% turns на малі швидкі моделі, ~25% на середні, ~5% на найбільшу. Якість тримається; вартість падає значно.