Бенчмарк
5 000 voice-агент висловлювань с реальних клиентских разговоров (анонимизованих). Три типи задач: small talk, структуроване збирання информации, multi-step reasoning. Поривняни модели: GPT-4o, Claude 3.5 Sonnet, наша in-house 13B, наша in-house 70B и популярна open-source 70B.
Висновки
На small talk, все модели практически ривни. Ризниця в качества, шум. Latency и стоимость доминують в вибори.
На structured information gathering, Claude и наша 13B виграют. Они слидують инструкциям надийнише.
На multi-step reasoning, GPT-4o и наша 70B ведут. Значний gap до других моделей.
Что это означает
Немает «найкращои» модели, есть лучшая модель для каждого turn. Routing per-turn значно перемагает вибир одниеи модели для всього.
Наша продакшн-система маршрутизуе ~70% turns на маленькие быстрые модели, ~25% на середни, ~5% на найбильшу. Качество тримается; стоимость падает значно.