Компания Inworld AI выпустила TTS-1.5. Это обновление для голосовых агентов. Они работают в реальном времени.
Скорость синтеза выросла в четыре раза. Максимальная задержка — 250 миллисекунд. Минимальная — всего 130.
Это критично для игр и диалогов. Пользователь не чувствует паузы. Разговор течёт естественно.
Система стала выразительнее на 30%. Стабильность выросла на 40%. Ошибок в словах стало меньше.
Цена — пять долларов за миллион символов. Это копейки в минуту. Можно использовать постоянно.
Поддерживается 15 языков. В списке русский, английский, китайский. Не нужно отдельные модели для рынков.
Есть функция клонирования голоса. Достаточно 15 секунд записи. Или 30 минут для профессионального результата.
Систему можно развернуть в облаке. Или на своих серверах. Качество везде одинаковое.