Meta представила модель ШІ Llama 2 Long, яка краще працює з довгими запитами

02/10/2023 12:35

На щорічному заході Meta Connect у Каліфорнії компанія Meta Platforms представила кілька нових функцій зі штучним інтелектом для своїх популярних застосунків Facebook, Instagram і WhatsApp, але найбільш вражаюче нововведення від техногіганта, можливо, залишилося для багатьох непоміченим. Мова йде про модель ШІ Llama 2 Long.

Команда дослідників компанії Meta якось непомітно опублікувала статтю, в якій представила нову модель штучного інтелекту Llama 2 Long, здатну генерувати зв’язні та релевантні відповіді на довгі користувацькі запити. Щобільше, за їхніми словами, вона перевершує деяких з найкращих конкурентів у цій галузі.

Llama 2 Long – це розширення Llama 2, моделі ШІ з відкритим вихідним кодом, яку компанія Meta випустила влітку, і яка може навчатися з різних джерел даних і виконувати безліч завдань, як-от кодування, математика, розуміння мови тощо. Однак Llama 2 Long навчалася на більшій кількості даних, які містять довші тексти, і цей алгоритм був модифікований для обробки довших послідовностей інформації. Це дозволяє йому перевершити GPT-3.5 Turbo і Claude 2 від OpenAI, які мають обмеження на обсяг контексту, який вони можуть використовувати для генерації відповідей.

Дослідники Meta використовували різні версії Llama 2 – від 7 млрд до 70 млрд параметрів, тобто значень, які модель ШІ може змінювати, навчаючись на даних. Вони додали ще 400 млрд токенів (одиниць тексту) даних, які містили довші тексти, ніж оригінальний набір даних моделі. Вони також трохи підкоригували архітектуру ШІ-моделі за допомогою техніки Rotary Positional Embedding (RoPE), щоб модель могла генерувати точні та корисні відповіді, використовуючи менше інформації та пам’яті, ніж інші методи.

Команда використовувала навчання з підкріпленням на основі зворотного зв’язку з людиною (reinforcement learning from human feedback, або RLHF) – метод, коли ШІ-модель отримує винагороду за правильні відповіді та коригується людьми-оцінювачами, а синтетичні дані генеруються самим чатом Llama 2, щоб покращити її продуктивність при виконанні різних завдань.

У статті стверджується, що модель може генерувати високоякісні відповіді на підказки користувача довжиною до 200 тис. символів, що еквівалентно приблизно 40 сторінкам тексту. Дослідники кажуть, що Llama 2 Long – це крок до створення більш загальних і універсальних моделей ШІ, здатних задовольняти складні та різноманітні потреби користувачів. Вони також визнають потенційні етичні та соціальні наслідки таких моделей і закликають до подальших досліджень і діалогу про те, як використовувати їх відповідально і з користю.

Читайте також:

Svitlana Anisimova

Канцелярська маніячка, шалена читачка, люблю все, в чому є борошно, цукор та любовна лінія. На 80% складаюся з guilty pleasure.

Наступна стаття АЛЛО підтримує збір «Бонусна броня» Фонду Сергія Притули на бронетранспорт »

Попередня стаття « Spotify запускає нові функції та покращення для подкастів

Published by

Svitlana Anisimova

Tags: MetaНовиниШтучний Інтелект

02/10/2023 12:35

Meta представила модель ШІ Llama 2 Long, яка краще працює з довгими запитами

Leave a Reply

Радимо сайт про авіацію, БПЛА, космонавтику

Meta представила модель ШІ Llama 2 Long, яка краще працює з довгими запитами

Leave a Reply

Схожі статті

Радимо сайт про авіацію, БПЛА, космонавтику