Коротко
Мы перебудували voice-агента с нуля. Voice Agent v2 виходить сегодня с задержкой первого токена менее чем 200 мс (с 600 мс), нативним перемиканням языков на 14 мовах и на 40% нижчою стоимостью за минуту. Иснуючи клиенты будут мигровани автоматически протягом двох недель.
Если вы когда-небудь отчували, что voice AI «почти там», v2 это версия, что перетинает линию.
Почему rewrite
Voice Agent v1 был хороший. Клиенты были задоволени. Но мы постийно впиралися в одни и те сами три ограничение: latency, 500-700мс минимум, переключение языков вимагало переналаштування, стоимость за минуту не могла впасты ниже $0.08.
В каждого с этих обмежень была ризна першопричина. Latency, проблема ланцюга сервисов. Многоязычность, проблема вибору модели. Стоимость, архитектурна проблема. Чтобы исправить их, нужно было переписати весь стек, что мы и зробили за последние 8 месяцев.
Задержка: 600мс → 180мс
Старый pipeline виконував ASR → LLM → TTS послидовно, каждый этап чекав на завершення попереднього. Новый pipeline передаёт partials между каждым этапом. ASR partials тригерят токени LLM ещё до того, как користувач закинчить говорить. Токени LLM стримляться в TTS, пока ещё генеруются.
Результат: медианна задержка первого токена 180мс на нашему тестовому suite. P95 под 280мс. Это пориг, где voice-агенты перестают отчуватись как AI и начинают отчуватись как людина.
14 языков, переключение посеред речення
v1 вимагав конфигурации под кожну язык. Клиенты на multilingual ринках мусили подтримувати окремих агентов. v2 определяет язык на каждое висловлювання, и навите на каждое слово в code-switching сценариях.
Подтримуются на запуску: английська, украинская, росийська, польська, чеська, словацька, румунська, угорська, нимецька, французька, испанська, италийська, португальська, нидерландська. Больше, на основи попиту клиентов.
На 40% ниже стоимость за минуту
Мы заминили найважчу модель в ланцюзи на кастомно тренувану, которая в 4× менша и отвечает качества на нашему voice-бенчмарку. Также перейшлы с per-token прайсингу на bulk inference, что работает, бо мы можем batch-ити между клиентами.
Прайсинг для кинцевих клиентов падает соответственно: voice-минуты на Launch-плани с $0.08 до $0.05. Иснуючи контракты будут отримувати кращу ставку без дии.
Что далее
Voice Agent v2 живой для всех клиентов от сегодня. Миграция автоматическая и zero-config, просто обновите дашборд.
В Q3: voice cloning для branded experiences, emotion-aware prosody, и self-service voice latency analyzer.