Все публикации
Продукт 8 хв читання

Voice Agent v2: в 3× быстрее, на 40% дешевле, 14 языками

Полное переписывание нашего voice-стека. Задержка первого токена менее чем 200мс, нативное переключение между языками и драматически ниже цена за минуту.

Андрей Короленко
Voice AI Lead
Apr 22, 2026

Коротко

Мы перебудували voice-агента с нуля. Voice Agent v2 виходить сегодня с задержкой первого токена менее чем 200 мс (с 600 мс), нативним перемиканням языков на 14 мовах и на 40% нижчою стоимостью за минуту. Иснуючи клиенты будут мигровани автоматически протягом двох недель.

Если вы когда-небудь отчували, что voice AI «почти там», v2 это версия, что перетинает линию.

Почему rewrite

Voice Agent v1 был хороший. Клиенты были задоволени. Но мы постийно впиралися в одни и те сами три ограничение: latency, 500-700мс минимум, переключение языков вимагало переналаштування, стоимость за минуту не могла впасты ниже $0.08.

В каждого с этих обмежень была ризна першопричина. Latency, проблема ланцюга сервисов. Многоязычность, проблема вибору модели. Стоимость, архитектурна проблема. Чтобы исправить их, нужно было переписати весь стек, что мы и зробили за последние 8 месяцев.

Задержка: 600мс → 180мс

Старый pipeline виконував ASR → LLM → TTS послидовно, каждый этап чекав на завершення попереднього. Новый pipeline передаёт partials между каждым этапом. ASR partials тригерят токени LLM ещё до того, как користувач закинчить говорить. Токени LLM стримляться в TTS, пока ещё генеруются.

Диаграма архитектури voice-pipeline со streaming partials между ASR, LLM, TTS
Диаграма архитектури voice-pipeline со streaming partials между ASR, LLM, TTS

Результат: медианна задержка первого токена 180мс на нашему тестовому suite. P95 под 280мс. Это пориг, где voice-агенты перестают отчуватись как AI и начинают отчуватись как людина.

14 языков, переключение посеред речення

v1 вимагав конфигурации под кожну язык. Клиенты на multilingual ринках мусили подтримувати окремих агентов. v2 определяет язык на каждое висловлювання, и навите на каждое слово в code-switching сценариях.

Подтримуются на запуску: английська, украинская, росийська, польська, чеська, словацька, румунська, угорська, нимецька, французька, испанська, италийська, португальська, нидерландська. Больше, на основи попиту клиентов.

На 40% ниже стоимость за минуту

Мы заминили найважчу модель в ланцюзи на кастомно тренувану, которая в 4× менша и отвечает качества на нашему voice-бенчмарку. Также перейшлы с per-token прайсингу на bulk inference, что работает, бо мы можем batch-ити между клиентами.

Прайсинг для кинцевих клиентов падает соответственно: voice-минуты на Launch-плани с $0.08 до $0.05. Иснуючи контракты будут отримувати кращу ставку без дии.

Что далее

Voice Agent v2 живой для всех клиентов от сегодня. Миграция автоматическая и zero-config, просто обновите дашборд.

В Q3: voice cloning для branded experiences, emotion-aware prosody, и self-service voice latency analyzer.

#voice#релиз#эффективность
Андрей Короленко
Voice AI Lead

Володие voice-инфраструктурою. PhD с audio ML, 8 лет релизу продакшн speech-систем. Вважает, что voice AI наконец готовое для prime time.

Попробовать MyChatBot бесплатно

Настройте своего первого AI-агента за 10 минут. Картка не нужна.

Бесплатный пробний период