Как мы уменьшили voice latency до менее чем 300 мс, блог MyChatBot

Проблема латентности

Voice AI имеет жорсткий latency-бюджет. Усе понад 500мс отчувается как задержка. Понад 1 секунду, как зламано. Наш v1 pipeline был в середньому 600мс, нормально для продукта, не круто для планки, которую мы хотилы взяти.

Latency в voice-pipeline-ах визначается ланцюгом сервисов: ASR → LLM → TTS, плюс мережеви round trips. Каждый этап чекает на завершення попереднього. С 200мс ASR + 250мс LLM + 200мс TTS вы уже на 650мс.

Streaming partials между каждым этапом

Найбильший виграш, никогда не чекати, пока этап завершиться. ASR стримить partial-транскрипты, пока користувач говорит. LLM получает partials и начинает генерувати. TTS стримить аудио-chunks ещё до того, как LLM закинчить.

В этого есть компромисы. ASR partials шумни, они ревизуются по мири надходження аудио. LLM имеет обрабатывать это коректно. Мы додали тонкий слой, что буферизуе последние 150 мс partials перед передачею в LLM, что поглинает бильшисть ревизей.

Вибир правильнои модели на каждый хид

Не каждый turn потребуе 400B-param модель. Бильшисть, ни. Мы класификуем входящие turns в 4 buckets, small-talk, factual lookup, reasoning, complex multi-step, и маршрутизуем до модели размера под каждый.

Small-talk идёт на 7B модель с 80мс inference. Reasoning, на 70B. Complex multi-step, на большое. Наш класификатор сам, 200M params и работает меньше чем за 10мс.

Кинцевий результат

Медианна задержка первого токена: 180мс. P95: 280мс. P99: 420мс. Найповильниший тир разговоров все ещё ниже перцептивного порогу для бильшости користувачов.

Стоимость тоже впала, мы використовуем малу модель 70% времени, середню 25%, велику только 5%.

#voice#эффективность#engineering

Ярослав Демир

Principal Engineer

Володие надийнистю платформы. 10+ лет построения high-throughput систем. Захищатиме Go в будь-котором треди.

Как мы уменьшили voice latency до менее чем 300 мс

Проблема латентности

Streaming partials между каждым этапом

Вибир правильнои модели на каждый хид

Кинцевий результат

Попробовать MyChatBot бесплатно

Больше от Инженерия

Будуем multi-tenant runtime для агентов

Уроки с обработки 50М+ сообщений на месяц

Voice Agent v2: в 3× быстрее, на 40% дешевле, 14 языками

Сохраните своего агента, чтобы продолжить