Французька компанія Mistral представила нову модель синтезу мовлення з відкритим кодом, яку можна використовувати як у голосових AI-асистентах, так і в корпоративних сценаріях, зокрема у службах підтримки клієнтів. Рішення дає змогу бізнесу створювати голосових агентів для продажів і взаємодії з користувачами, що ставить Mistral у пряму конкуренцію з ElevenLabs, Deepgram та OpenAI.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Нова модель отримала назву Voxtral TTS і підтримує дев’ять мов: англійську, французьку, німецьку, іспанську, нідерландську, португальську, італійську, гінді та арабську. “Наші клієнти просили нас створити модель розпізнавання мови. Тому ми розробили компактну модель, яка може працювати на смартгодинниках, смартфонах, ноутбуках та інших периферійних пристроях, – заявив віцепрезидент з наукових операцій компанії Mistral AI П’єр Сток. – Її вартість становить лише частку від ціни інших рішень на ринку, але вона забезпечує найсучаснішу продуктивність”.
Модель здатна відтворювати індивідуальний голос, використовуючи аудіозразок тривалістю менш ніж п’ять секунд. Вона точно передає особливості мовлення, включаючи акценти, інтонації, темп і навіть характерні нерівності звучання. Система заснована на архітектурі Ministral 3B і легко перемикається між мовами без втрати унікальних рис голосу, що робить її зручною для дубляжу або перекладу в режимі реального часу. У компанії наголошують, що прагнули досягти максимально природного звучання, щоб голос не здавався штучним.
За даними Mistral, модель оптимізована для роботи в реальному часі. Показник затримки до першого звуку становить приблизно 90 мілісекунд для фрагмента довжиною 500 символів, що відповідає приблизно 10 секундам мовлення. Крім того, коефіцієнт роботи в реальному часі становить 6×, тобто система може згенерувати 10-секундний аудіофрагмент приблизно за 1,6 секунди.
Раніше цього року компанія вже представила дві моделі для транскрипції: одну – для обробки великих обсягів даних, іншу – для сценаріїв з низькою затримкою в реальному часі. Запуск Voxtral TTS свідчить про намір Mistral створити повноцінний набір голосових рішень для бізнесу. “Ми плануємо створити комплексну платформу, здатну обробляти мультимодальні потоки вхідних даних, зокрема аудіо, текст та зображення, а також вихідні дані. Головна перевага такого підходу полягає в тому, що комплексна агентна система, яка підтримує аудіо як вхідні або вихідні дані, дозволяє отримати набагато більше інформації”, – додав П’єр Сток.

Mistral робить ставку на відкритість і можливість глибокого налаштування моделі, розраховуючи, що саме це стане ключовою перевагою для корпоративних клієнтів. Компанії зможуть адаптувати рішення під власні потреби, що підвищує привабливість продукту на тлі конкурентів.
Читайте також:
- Google прокачала свій AI-генератор музики: Що вміє модель Lyria 3 Pro
- Новий інтерфейс та розширені AI-функції: Apple готує масштабне оновлення Siri
