Коротко
Ми перебудували voice-агента з нуля. Voice Agent v2 виходить сьогодні з затримкою першого токена менш ніж 200 мс (з 600 мс), нативним перемиканням мов на 14 мовах і на 40% нижчою вартістю за хвилину. Існуючі клієнти будуть мігровані автоматично протягом двох тижнів.
Якщо ви коли-небудь відчували, що voice AI «майже там», v2 це версія, що перетинає лінію.
Чому rewrite
Voice Agent v1 був хороший. Клієнти були задоволені. Але ми постійно впиралися в одні й ті самі три обмеження: latency, 500-700мс мінімум, перемикання мов вимагало переналаштування, вартість за хвилину не могла впасти нижче $0.08.
У кожного з цих обмежень була різна першопричина. Latency, проблема ланцюга сервісів. Мультимовність, проблема вибору моделі. Вартість, архітектурна проблема. Щоб виправити їх, треба було переписати весь стек, що ми й зробили за останні 8 місяців.
Затримка: 600мс → 180мс
Старий pipeline виконував ASR → LLM → TTS послідовно, кожен етап чекав на завершення попереднього. Новий pipeline передає partials між кожним етапом. ASR partials тригерять токени LLM ще до того, як користувач закінчить говорити. Токени LLM стрімляться у TTS, поки ще генеруються.
Результат: медіанна затримка першого токена 180мс на нашому тестовому suite. P95 під 280мс. Це поріг, де voice-агенти перестають відчуватись як AI і починають відчуватись як людина.
14 мов, перемикання посеред речення
v1 вимагав конфігурації під кожну мову. Клієнти на multilingual ринках мусили підтримувати окремих агентів. v2 визначає мову на кожне висловлювання, і навіть на кожне слово в code-switching сценаріях.
Підтримуються на запуску: англійська, українська, російська, польська, чеська, словацька, румунська, угорська, німецька, французька, іспанська, італійська, португальська, нідерландська. Більше, на основі попиту клієнтів.
На 40% нижча вартість за хвилину
Ми замінили найважчу модель у ланцюзі на кастомно тренувану, яка в 4× менша і відповідає якості на нашому voice-бенчмарку. Також перейшли з per-token прайсингу на bulk inference, що працює, бо ми можемо batch-ити між клієнтами.
Прайсинг для кінцевих клієнтів падає відповідно: voice-хвилини на Launch-плані з $0.08 до $0.05. Існуючі контракти будуть отримувати кращу ставку без дії.
Що далі
Voice Agent v2 живий для всіх клієнтів від сьогодні. Міграція автоматична і zero-config, просто оновіть дашборд.
У Q3: voice cloning для branded experiences, emotion-aware prosody, та self-service voice latency analyzer.