Amazon представила модель генеративного штучного інтелекту Nova Sonic, здатну обробляти голос і генерувати мову, яка звучить природно. У тестах на заміри швидкості, розпізнавання мови і якість розмови Sonic зарекомендувала себе як конкурентоспроможна порівняно з передовими голосовими моделями OpenAI та Google.
Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.
Nova Sonic – відповідь Amazon на нові голосові моделі AI, як-от та, що лежить в основі звукового режиму ChatGPT; усі вони пропонують більш природні формати спілкування, ніж ранні версії голосового помічника Alexa. Технологічні прориви останніх років дали змогу зробити застарілі моделі та цифрових помічників, включно з Alexa та Apple Siri, набагато природнішими у взаємодії з людиною. Модель Nova Sonic доступна через Bedrock – пропоновану Amazon платформу для розробників корпоративних застосунків з AI. Підтримується двонапрямний потоковий API. Nova Sonic, додали в Amazon, обходиться в експлуатації на 80 % дешевше, ніж мультимодальна OpenAI GPT-4o, а її компоненти вже працюють в оновленому варіанті Alexa+.
Вона перевершує конкурентів у маршрутизації призначених для користувача запитів до різних API – модель «знає», коли їй необхідно в реальному часі витягти інформацію з інтернету, проаналізувати власне джерело даних або виконати дію в зовнішньому застосунку – і використовувати для цього відповідний інструмент. Під час двостороннього діалогу Nova Sonic чекає, щоб заговорити «у відповідний час», з огляду на властиві співрозмовнику паузи та затримки. Вона також складає текстову розшифровку мови користувача, яку розробники можуть використовувати для різних застосунків.
У завданнях, пов’язаних із розпізнаванням мови, вона менш схильна до помилок, ніж інші голосові моделі AI, тобто відносно добре розуміє користувача, навіть якщо він бурмоче, розмовляє з помилками або перебуває в галасливій обстановці. В еталонному тесті Multilingual LibriSpeech, що дає змогу оцінити якість розпізнавання мовлення різними мовами та діалектами, Nova Sonic показала коефіцієнт помилок у словах (WER) лише 4,2% у середньому за англійською, французькою, італійською, німецькою, та іспанською мовами. Тобто під час підготовки розшифровки мови вона невірно розпізнає приблизно чотири зі ста слів порівняно з людиною.
У бенчмарку Augmented Multi Party Interaction, що оцінює якість розмови вголос із кількома учасниками, Nova Sonic виявилася на 46,7 % точнішою за критерієм WER, ніж OpenAI GPT-4o-transcribe. Модель від Amazon також виявилася дуже швидкою – її середня затримка склала 1,09 с проти 1,18 с, яку показала GPT-4o, що лежить в основі OpenAI Realtime API. Компанія має намір представити ще кілька моделей AI, здатних до опрацювання зображень, відео, голосу та «інших сенсорних даних, які необхідні під час перенесення у фізичний світ».
Читайте також:
- Космічні перегони між Amazon і Starlink: перші інтернет-супутники Кuiper запустять вже 9 квітня
- Amazon почала роботу над серіалом по Warhammer 40,000 з Генрі Кавіллом