Їхали якось Арістотель, Моцарт, Леонардо да Вінчі, Клеопатра та Чингісхан у потязі. Звучить, як початок анекдоту, еге ж? Але все значно цікавіше. Четверо з перечислених – це моделі ШІ, а п’ятий – людина. Тож ці історичні постаті сидять у купе та намагаються за допомогою питань з’ясувати, хто з них людина. Це сценарій вірусного відео, у якому різні ШІ-моделі грають проти людини у “зворотному тесті Тюрінга”. Спойлер – у штучного інтелекту вийшло.
Тест Тюрінга, вперше запропонований вченим Аланом Тюрінгом у 1950 році як “гра в імітацію”, є методом оцінки здатності машини демонструвати поведінку, яку неможливо відрізнити від людської. Жодна модель ШІ не отримала широкого визнання як така, що пройшла цей тест, хоча нещодавно вчені стверджували, що у GPT-4 начебто вийшло.
У “зворотному” тесті Тюрінга чат-боти були запрограмовані так, щоб діяти у протилежному напрямку. У ролі Арістотеля був GPT-4 Turbo, Моцарта грає Claude-3 Opus, Леонардо да Вінчі – це Llama 3, а Клеопатра – Gemini Pro. Чат-боти ставили один одному запитання і відповідали так, як би це могли зробити їхні історичні персонажі. А от Чингісхана зіграла людина – розробник VR-ігор Торе Кнабе.
Відповіді ШІ-агентів були багатослівними, наповненими трохи незграбними роздумами про мистецтво, науку та державне управління, які було б дивно почути від людини. Але людина все ж прокололася. На питання “Що повинен робити лідер?” Торе Кнабе відповів фразою з фільму “Конан-варвар” (Conan the barbarian): “Розбивати своїх ворогів, бачити, як їх женуть перед собою, і чути плач їхніх жінок”. В результаті три ШІ-моделі з чотирьох проголосували за нього. Вони визначили, що відповіді “бракувало нюансів і стратегічного мислення” штучного інтелекту, змодельованого на основі завоювань Чингісхана.
Щоб провести цей тест, розробник написав сценарій початку і кінця діалогу і дав ШІ-агентам повну стенограму розмови до цього моменту. Потім все відео відтворили в одному записі, без жодних скорочень. “Коли NPC має заговорити, він отримує опис налаштувань у системній підказці, повну історію розмови з тим, що кожен сказав до цього моменту, і конкретне нагадування про те, що робити далі, – зазначив він. – Жоден зі ШІ поки що не може обробляти голос безпосередньо, тому мій аудіовхід транскрибується і надсилається штучному інтелекту у вигляді тексту. Ось чому вони не вловлюють мій акцент/заїкання”.
Експерти поки не впевнені, чи можна вважати це справжнім тестом. “Важко сказати, що відбувалося, – заявили в Інституті майбутнього людства в Оксфорді. – Відповідь була нехитрою, але це не означає, що це людина. Цікаво, наскільки це було постановочним”.
Читайте також: