ChatGPT тепер розуміє голосові команди

OpenAI розширила варіанти взаємодії з ChatGPT. Нова версія чат-бота тепер приймає як промти (підказки) не тільки текст, але також зображення і голосові команди. Для комерційних користувачів нові можливості стануть доступні в найближчі два тижні, а іншим доведеться якийсь час почекати.

Спілкування голосом з ChatGPT у чомусь схоже на розмову з будь-яким голосовим помічником, але, за твердженням OpenAI, якість відповідей значно вища завдяки поліпшеній базовій технології. Користувач натискає кнопку і вимовляє запитання, ChatGPT перетворює його на текст і передає у велику мовну модель, отримує відповідь, перетворює її назад на мовлення і вимовляє відповідь вголос.

Нові можливості ChatGPT спираються на велику мовну модель Whisper, яка виконує значну частину роботи з перетворення мови в текст і назад. За твердженням OpenAI, нова модель може генерувати “людський голос із тексту і зразка мови тривалістю в кілька секунд”. Поки що доступно п’ять варіантів голосу ChatGPT, але OpenAI бачить у цій моделі набагато більший потенціал.

ChatGPT

Можливість створити синтезований голос будь-якої людини, спираючись лише на кілька секунд її мови, дає широке поле діяльності для кіберзлочинців, визнає OpenAI в анонсі нових функцій: “Це нові ризики, як-от можливість зловмисників видати себе за громадських діячів або вчинити шахрайство”. За твердженням компанії, модель недоступна для широкого використання саме з цієї причини: OpenAI планує обмежити модель конкретними варіантами використання і партнерськими угодами.

Що стосується запиту в ChatGPT за допомогою зображення, користувачеві достатньо сфотографувати або намалювати предмет свого інтересу і надіслати боту. У процесі спілкування можна застосовувати текстові або голосові підказки, щоб уточнити запит або обмежити область пошуку.

Очевидно, що використання зображень як підказки для чат-бота також має свої потенційні проблеми. Насамперед це стосується запиту про особу людини на фотографії, хоча OpenAI заявляє, що обмежила “здатність ChatGPT аналізувати і робити прямі заяви про людей” як з міркувань точності, так і з міркувань конфіденційності.

Майже через рік після першого запуску ChatGPT OpenAI продовжує розширювати межі застосування і використання свого чат-бота, намагаючись уникнути пов’язаних із ним проблем і недоробок. Зокрема, компанія навмисно обмежує можливості своїх нових ШІ-моделей. Але такий підхід не працюватиме вічно. У міру того, як дедалі більше людей використовують голосове управління і пошук зображень, а ChatGPT стає мультимодальним і корисним віртуальним помічником, утримувати ШІ в рамках буде дедалі важче і важче.

Читайте також:

Джерелоtheverge

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Зворотній зв'язок в режимі реального часу

Переглянути всі коментарі

Інші статті

ChatGPT тепер розуміє голосові команди та працює із зображеннями

Останні коментарі