Meta a présenté un nouveau modèle d'IA puissant, Llama 2 Long

Meta Platforms à l'événement annuel Meta Connect en Californie présenté plusieurs nouvelles fonctionnalités d'IA pour ses applications populaires Facebook, Instagram et WhatsApp, mais l’innovation la plus impressionnante du géant de la technologie est peut-être passée inaperçue pour beaucoup. Nous parlons du modèle Llama 2 Long AI.

Une équipe de chercheurs de la société Meta a publié discrètement un article dans lequel ils présentaient un nouveau modèle d'intelligence artificielle, Llama 2 Long, capable de générer des réponses cohérentes et pertinentes aux longues requêtes des utilisateurs. Tout au plus, disent-ils, il surpasse certains des meilleurs concurrents du secteur.

Llama 2 Long est une extension Llama 2, un modèle d'IA open source Meta publié au cours de l'été, capable d'apprendre à partir de diverses sources de données et d'effectuer diverses tâches telles que le codage, les mathématiques, la compréhension du langage, etc. Cependant, Llama 2 Long a été formé sur davantage de données contenant des textes plus longs, et cet algorithme a été modifié pour gérer des séquences d'informations plus longues. Cela lui permet de surpasser GPT-3.5 Turbo et Claude 2 d'OpenAI, qui ont des limites quant à la quantité de contexte qu'ils peuvent utiliser pour générer des réponses.

Des chercheurs Meta utilisé différentes versions de Llama 2 - de 7 milliards à 70 milliards de paramètres, c'est-à-dire des valeurs que le modèle d'IA peut modifier en apprenant des données. Ils ont ajouté 400 milliards de jetons supplémentaires (unités de texte) de données contenant des textes plus longs que l'ensemble de données du modèle d'origine. Ils ont également légèrement modifié l'architecture du modèle d'IA à l'aide de la technique Rotary Positional Embedding (RoPE) afin que le modèle puisse générer des réponses précises et utiles en utilisant moins d'informations et de mémoire que les autres méthodes.

Llama 2

L'équipe a utilisé l'apprentissage par renforcement à partir du feedback humain (RLHF), une méthode dans laquelle le modèle d'IA est récompensé pour les réponses correctes et corrigées par des évaluateurs humains, et des données synthétiques sont générées par le chat Llama 2 lui-même pour améliorer ses performances dans diverses tâches. .

Le document affirme que le modèle peut générer des réponses de haute qualité aux invites des utilisateurs comportant jusqu'à 200 40 caractères, ce qui équivaut à environ 2 pages de texte. Les chercheurs affirment que Llama XNUMX Long constitue une étape vers la création de modèles d’IA plus généraux et plus polyvalents, capables de répondre aux besoins complexes et diversifiés des utilisateurs. Ils reconnaissent également les implications éthiques et sociales potentielles de tels modèles et appellent à des recherches et à un dialogue plus approfondis sur la manière de les utiliser de manière responsable et bénéfique.

Lisez aussi:

sourceingénierie intéressante

S'inscrire

0 Commentaires

Avis intégrés

Voir tous les commentaires

Autres articles

Meta a introduit le modèle Llama 2 Long AI, qui fonctionne mieux avec les requêtes longues

Commentaires récents