На щорічному заході Meta Connect у Каліфорнії компанія Meta Platforms представила кілька нових функцій зі штучним інтелектом для своїх популярних застосунків Facebook, Instagram і WhatsApp, але найбільш вражаюче нововведення від техногіганта, можливо, залишилося для багатьох непоміченим. Мова йде про модель ШІ Llama 2 Long.
Команда дослідників компанії Meta якось непомітно опублікувала статтю, в якій представила нову модель штучного інтелекту Llama 2 Long, здатну генерувати зв’язні та релевантні відповіді на довгі користувацькі запити. Щобільше, за їхніми словами, вона перевершує деяких з найкращих конкурентів у цій галузі.
Llama 2 Long – це розширення Llama 2, моделі ШІ з відкритим вихідним кодом, яку компанія Meta випустила влітку, і яка може навчатися з різних джерел даних і виконувати безліч завдань, як-от кодування, математика, розуміння мови тощо. Однак Llama 2 Long навчалася на більшій кількості даних, які містять довші тексти, і цей алгоритм був модифікований для обробки довших послідовностей інформації. Це дозволяє йому перевершити GPT-3.5 Turbo і Claude 2 від OpenAI, які мають обмеження на обсяг контексту, який вони можуть використовувати для генерації відповідей.
Дослідники Meta використовували різні версії Llama 2 – від 7 млрд до 70 млрд параметрів, тобто значень, які модель ШІ може змінювати, навчаючись на даних. Вони додали ще 400 млрд токенів (одиниць тексту) даних, які містили довші тексти, ніж оригінальний набір даних моделі. Вони також трохи підкоригували архітектуру ШІ-моделі за допомогою техніки Rotary Positional Embedding (RoPE), щоб модель могла генерувати точні та корисні відповіді, використовуючи менше інформації та пам’яті, ніж інші методи.
Команда використовувала навчання з підкріпленням на основі зворотного зв’язку з людиною (reinforcement learning from human feedback, або RLHF) – метод, коли ШІ-модель отримує винагороду за правильні відповіді та коригується людьми-оцінювачами, а синтетичні дані генеруються самим чатом Llama 2, щоб покращити її продуктивність при виконанні різних завдань.
У статті стверджується, що модель може генерувати високоякісні відповіді на підказки користувача довжиною до 200 тис. символів, що еквівалентно приблизно 40 сторінкам тексту. Дослідники кажуть, що Llama 2 Long – це крок до створення більш загальних і універсальних моделей ШІ, здатних задовольняти складні та різноманітні потреби користувачів. Вони також визнають потенційні етичні та соціальні наслідки таких моделей і закликають до подальших досліджень і діалогу про те, як використовувати їх відповідально і з користю.
Читайте також: