Чат-боти GPT 4.5 і Llama успішно пройшли тест Тюрінга

Нове дослідження, проведене вченими з Каліфорнійського університету в Сан-Дієго, показало, що GPT-4.5, остання велика мовна модель OpenAI, і Llama-3.1-405B від Meta успішно пройшли тристоронній тест Тюрінга (Turing Test), який вважається барометром людиноподібного інтелекту.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Результати показують, що слідчі часто приймали ці AI-моделі за людей, що свідчить про те, що тест Тюрінга, принаймні за певних умов, може бути обійдений останнім поколінням чат-ботів зі штучним інтелектом.

Чат-боти GPT 4.5 і Llama успішно пройшли тест Тюрінга

За словами провідного дослідника Кемерона Джонса, GPT-4.5 зі стратегічною підказкою «ОСОБА» показав результат 73% – це означає, що в п’ятихвилинних сесіях чату АІ-систему ідентифікували як людину частіше, ніж це була справжня людина. Llama-3.1-405B також перетнув цей поріг (хоча і з нижчим показником у 56%), коли йому було запропоновано прийняти певний образ.

На противагу цьому, GPT-4o, еталонна модель, яка, ймовірно, лежить в основі широко використовуваного сьогодні ChatGPT, показала лише 21% успіху за мінімальних інструкцій. Ці результати знову розпалили дискусію про те, чи є імітаційна гра Тьюринга все ще значущою мірою людського інтелекту, чи вона здебільшого підкреслює здатність сучасних AI імітувати людську розмову.

Дослідження також висвітлило зміни в тому, як ми, люди-допитувачі, підходимо до підозріло вільного спілкування з «людьми» по той бік текстового вікна. Чи красномовні чат-боти занадто легко переконують нас, чи моделі штучного інтелекту справді переступили знаковий поріг комп’ютерного мислення?

Чат-боти GPT 4.5 і Llama успішно пройшли тест Тюрінга

Британський математик і комп’ютерний науковець Алан Тюринг вперше запропонував свою імітаційну гру в 1950 році в якості уявного експерименту. Якщо слідчий не міг достовірно визначити різницю між людиною і прихованою машиною в текстовій розмові, Тюрінг вирішив, що про машину можна сказати, що вона «думає».

Покоління AI-ентузіастів використовували тест Тюрінга як мірило, хоча спочатку він був більше філософським, ніж технічним. Проте протягом десятиліть багато чат-ботів, як кажуть, «пройшли» тест Тюрінга – часто із застереженнями.

Критики стверджують, що цей тест більше вимірює нашу довірливість, ніж суворий стандарт інтелекту. З розвитком технології штучного інтелекту багато реальних чат-ботів виявилися здатними імітувати людей, покладаючись на величезні масиви текстів і зіставлення шаблонів, а не на справжнє міркування чи самосвідомість.

У дослідженні Каліфорнійського університету в Сан-Дієго GPT-4.5 і Llama-3.1-405B демонструють, наскільки складними стали системи генерації текстів. Їхній успіх різко зріс, коли вони отримали підказки «ОСОБА», що наказували їм прийняти дуже специфічну, схожу на людську поведінку.

Чат-боти GPT 4.5 і Llama успішно пройшли тест Тюрінга

Без таких підказок відсоток перемог GPT-4.5 впав до 36%, тоді як GPT-4o, без використання персонажів, досягнув лише 21%. Ці відмінності вказують на те, що частина «перемоги» полягає в тому, наскільки добре AI спрямований на проєктування правдоподібної особистості, з деталями про повсякденне життя, стосунки та емоційні стани.

Важливіше питання полягає в тому, чи є успіх в обдурюванні слідчого доказом справжнього машинного інтелекту. За задумом Тюрінга, завдання, що базується на розмові, має обходити стороною філософські визначення «мислення» або «усвідомлення» і дозволяти виконанню говорити за себе.

Але сьогодні продуктивність – це більше про вдосконалене співставлення шаблонів, випадкову вибірку тексту і знання, отримані з мільярдів вже існуючих документів.

ChatGPT

Протягом майже десятиліття хвиля за хвилею чат-боти та системи штучного інтелекту були оголошені «переможцями» тесту Тюрінга. Щоразу дослідники сперечаються, чи залишається цей тест достовірним показником інтелекту, чи він лише доводить, що великі мовні моделі можуть генерувати безперешкодну розмову. Критики, однак, виділяють кілька ключових проблем.

Людська довірливість або ілюзії: Тест Тюрінга може бути «пройдений», якщо людина-допитувач не зможе побачити крізь ретельно підготовлений текст або якщо вона просто не поставить достатньо каверзних запитань. Замість того, щоб виявити глибину розуміння машини, він може просто показати, наскільки легко ми сприймаємо правдоподібну мову.
Вузький контекст проти широкого інтелекту: Тест Тюрінга передбачає короткі текстові розмови. Тим часом AI все більше спеціалізується на таких завданнях, як аналіз даних, прогнозне моделювання або вдосконалені системи управління. Це ті сфери, які тест Тюрінга не оцінює.
Відсутність самосвідомості: Навіть якщо GPT-4.5 обдурить 73% допитувачів, він залишається алгоритмічним агрегатором токенів без суб’єктивного досвіду і свідомості. Попри проходження гри Тюрінга, чат-бот все ще може бути далеким від того, щоб відповідати стандарту розумної або самосвідомої істоти.
Зміна культурних орієнтирів: У міру того, як все більше людей звикатимуть до чат-інтерфейсів, керованих штучним інтелектом, вони можуть стати обережнішими або краще розпізнавати тонкі лінгвістичні нюанси. З іншого боку, AI може вдосконалюватися далі. Результати тесту Тюрінга можуть продовжувати коливатися в міру того, як розвиватимуться як людські очікування, так і досконалість AI.

В академічних та дослідницьких колах тест Тюрінга розглядається більше як історична віха, ніж як остаточне визначення інтелекту. Існує безліч альтернатив, таких як тест Лавлейса (зосереджений на креативності), Winograd Schema Challenge (перевірка міркувань на основі здорового глузду) або тест Маркуса (оцінка розуміння телевізійного шоу). Кожен з них намагається глибше дослідити когнітивні здібності, які не можна виявити під час простої розмови.

ChatGPT

Тим часом, у міру того, як ці системи штучного інтелекту стають все більш інтегрованими в повсякденне життя, допомагаючи людям списувати на іспитах, писати складні есе або допомагати у виконанні творчих завдань, виникає питання, чи дійсно вони перевершують повсякденні людські критерії для коротких сплесків розмови.

Дехто вважає це досягненням, яке свідчить про розвинені маніпулятивні чи риторичні навички, тоді як інші вбачають у цьому ознаку того, що ми, можливо, переоцінюємо хитромудру ілюзію, яку створили за сценарієм.

Читайте також:

Джерелоinterestingengineering

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Зворотній зв'язок в режимі реального часу

Переглянути всі коментарі

Інші статті

Чат-боти GPT 4.5 і Llama успішно пройшли тест Тюрінга: чому це важливо

Останні коментарі