Усі публікації
Продукт 8 хв читання

Voice Agent v2: у 3× швидше, на 40% дешевше, 14 мовами

Повне переписання нашого voice-стека. Затримка першого токена менш ніж 200мс, нативне перемикання між мовами та драматично нижча ціна за хвилину.

Андрій Короленко
Voice AI Lead
Apr 22, 2026

Коротко

Ми перебудували voice-агента з нуля. Voice Agent v2 виходить сьогодні з затримкою першого токена менш ніж 200 мс (з 600 мс), нативним перемиканням мов на 14 мовах і на 40% нижчою вартістю за хвилину. Існуючі клієнти будуть мігровані автоматично протягом двох тижнів.

Якщо ви коли-небудь відчували, що voice AI «майже там», v2 це версія, що перетинає лінію.

Чому rewrite

Voice Agent v1 був хороший. Клієнти були задоволені. Але ми постійно впиралися в одні й ті самі три обмеження: latency, 500-700мс мінімум, перемикання мов вимагало переналаштування, вартість за хвилину не могла впасти нижче $0.08.

У кожного з цих обмежень була різна першопричина. Latency, проблема ланцюга сервісів. Мультимовність, проблема вибору моделі. Вартість, архітектурна проблема. Щоб виправити їх, треба було переписати весь стек, що ми й зробили за останні 8 місяців.

Затримка: 600мс → 180мс

Старий pipeline виконував ASR → LLM → TTS послідовно, кожен етап чекав на завершення попереднього. Новий pipeline передає partials між кожним етапом. ASR partials тригерять токени LLM ще до того, як користувач закінчить говорити. Токени LLM стрімляться у TTS, поки ще генеруються.

Діаграма архітектури voice-pipeline зі streaming partials між ASR, LLM, TTS
Діаграма архітектури voice-pipeline зі streaming partials між ASR, LLM, TTS

Результат: медіанна затримка першого токена 180мс на нашому тестовому suite. P95 під 280мс. Це поріг, де voice-агенти перестають відчуватись як AI і починають відчуватись як людина.

14 мов, перемикання посеред речення

v1 вимагав конфігурації під кожну мову. Клієнти на multilingual ринках мусили підтримувати окремих агентів. v2 визначає мову на кожне висловлювання, і навіть на кожне слово в code-switching сценаріях.

Підтримуються на запуску: англійська, українська, російська, польська, чеська, словацька, румунська, угорська, німецька, французька, іспанська, італійська, португальська, нідерландська. Більше, на основі попиту клієнтів.

На 40% нижча вартість за хвилину

Ми замінили найважчу модель у ланцюзі на кастомно тренувану, яка в 4× менша і відповідає якості на нашому voice-бенчмарку. Також перейшли з per-token прайсингу на bulk inference, що працює, бо ми можемо batch-ити між клієнтами.

Прайсинг для кінцевих клієнтів падає відповідно: voice-хвилини на Launch-плані з $0.08 до $0.05. Існуючі контракти будуть отримувати кращу ставку без дії.

Що далі

Voice Agent v2 живий для всіх клієнтів від сьогодні. Міграція автоматична і zero-config, просто оновіть дашборд.

У Q3: voice cloning для branded experiences, emotion-aware prosody, та self-service voice latency analyzer.

#voice#реліз#ефективність
Андрій Короленко
Voice AI Lead

Володіє voice-інфраструктурою. PhD з audio ML, 8 років релізу продакшн speech-систем. Вважає, що voice AI нарешті готове для prime time.

Спробувати MyChatBot безкоштовно

Налаштуйте свого першого AI-агента за 10 хвилин. Картка не потрібна.

Безкоштовний пробний період