Старі чат-боти AI, як і люди, демонструють ознаки когнітивних порушень, провалюючись за кількома важливими показниками в тесті, який зазвичай використовується на людях.

Щоб дізнатись останні новини, слідкуйте за нашим каналом Google News онлайн або через застосунок.

Люди все більше покладаються на штучний інтелект (AI) для постановки медичних діагнозів через те, наскільки швидко і ефективно ці інструменти можуть виявляти аномалії і попереджувальні знаки в історіях хвороби, рентгенівських знімках та інших наборах даних до того, як вони стануть очевидними для неозброєного ока. Але нове дослідження, опубліковане 20 грудня 2024 року в BMJ, викликає занепокоєння тим, що технології штучного інтелекту, такі як великі мовні моделі (LLM) і чат-боти, як і люди, демонструють ознаки погіршення когнітивних здібностей з віком.

OpenAI Operator AI agent

«Ці висновки ставлять під сумнів припущення, що штучний інтелект незабаром замінить лікарів-людей, – пишуть автори дослідження, – оскільки когнітивні порушення, очевидні у провідних чат-ботів, можуть вплинути на їхню надійність у медичній діагностиці та підірвати довіру пацієнтів».

Вчені протестували загальнодоступні чат-боти на основі LLM, включаючи ChatGPT від OpenAI, Sonnet від Anthropic і Gemini від Alphabet, за допомогою Монреальського тесту когнітивної оцінки (MoCA) – серії завдань, які неврологи використовують для перевірки здібностей до уваги, пам’яті, мови, просторових навичок і виконавчих психічних функцій.

MoCA найчастіше використовується для оцінки або тестування початку когнітивних порушень при таких станах, як хвороба Альцгеймера або деменція. Суб’єктам дають завдання, наприклад, намалювати певний час на циферблаті годинника, запам’ятати якомога більше слів з проговореного списку і так далі. У людей 26 з 30 вважається прохідним балом (тобто суб’єкт не має когнітивних порушень).

Хоча деякі аспекти тестування, такі як називання, увага, мова та абстрагування, здавалися легкими для більшості використовуваних LLM, всі вони показали погані результати у візуальних/просторових навичках та виконавчих завданнях, причому деякі з них показали гірші результати, ніж інші в таких областях, як відстрочене пригадування.

Важливо, що в той час, як остання версія ChatGPT (версія 4) набрала найбільшу кількість балів (26 з 30), старіша версія Gemini 1.0 LLM набрала лише 16 балів, що дозволяє зробити висновок, що старіші LLM мають ознаки когнітивного спаду.

Автори дослідження зазначають, що їхні висновки є лише спостереженнями – критичні відмінності між способами роботи AI та людського розуму означають, що експеримент не може бути прямим порівнянням. Але вони застерігають, що це може вказувати на те, що вони називають «значною слабкою стороною», яка може загальмувати впровадження AI в клінічну медицину. Зокрема, вони заперечують проти використання AI в завданнях, що вимагають візуальної абстракції та виконавчих функцій.

Вони також піднімають дещо кумедну ідею про те, що людські неврологи виходять на абсолютно новий ринок – самих AI, які мають ознаки когнітивних порушень.

Читайте також:

Джерелоlivescience

Підписатися

0 Comments

Найновіше

Найстаріші Найбільше голосів

Зворотній зв'язок в режимі реального часу

Переглянути всі коментарі

Інші статті

Старі AI-моделі демонструють ознаки когнітивного занепаду

Останні коментарі