MIT の科学者が機械学習の謎を解き明かす

2010 年以降、ソフトウェアアルゴリズムの大幅な改善が始まり、これが強力なコンピューターと相まって、ニューラルネットワークの急速な発展に弾みをつけました。ソフトウェアモデルは何千もの例でトレーニングされ、後で独自のアクションを形成します。今日、最も有名なニューラルネットワークはこれです OpenAI GPT-3. これは、大量のインターネットデータの助けを借りて学習する機械学習モデルであり、テキストの小さな断片を取り、かなり高いレベルで不十分な断片を追加することができます。これは、物語のテキストだけでなく、詩やソフトウェアコードの行にも当てはまります。

しかし、これはこの計画のモデルができることのすべてではありません。研究者は、「文脈学習」として知られる興味深い現象を研究しています。この現象では、大規模な言語モデルは、タスクのトレーニングを受けていなくても、いくつかの例を見ただけでタスクを実行することを学習します。

マサチューセッツ工科大学、Google リサーチ、スタンフォード大学の科学者たちは、この謎を解こうとしています。コンテキスト学習では、モデルパラメーターは更新されないため、モデルは何も学習せずに新しいタスクを学習しているように見えます。

研究者の理論的結果は、ニューラルネットワークのこれらの大規模なモデルが、その内部に隠されたより小さくて単純な線形モデルを含むことができることを示しています。次に、大規模なモデルは、大規模なモデルに既に含まれている情報のみを使用して、この小さな線形モデルをトレーニングして新しいタスクを実行する単純なアルゴリズムを実装できます。

文脈学習をより深く理解することで、科学者は費用のかかる再トレーニングなしでモデルを使用して新しいタスクを実装できるようになります。つまり、まず、特定のタスクについて、トレーニングが行われることに基づいて大量のデータを収集する必要があります。そのため、トレーニングが行われるおかげで、ニューラルネットワークにほんの数例を提供することが可能になります。

「文脈学習は理不尽に効果的な学習現象であり、理解する必要があります」.

ニューラルネットワークモデルには、古いモデルに新しいタスクを実行するように教えることができる、より小さな機械学習モデルがあるという仮説が立てられています。彼らの理論をテストするために、科学者はGPT-3とアーキテクチャが非常に似ているニューラルネットワークモデルを採用しましたが、コンテキストでの学習のために特別に構築されました. つまり、以前のレイヤー内にモデルが実装され、線形モデルの学習に従事し、単純な学習アルゴリズムを実装していました。

「これらの結果は、モデルがより複雑なタスクを学習する方法を理解するための足がかりであり、研究者が言語モデルをトレーニングしてパフォーマンスをさらに向上させるためのより効果的な方法を開発するのに役立ちます。」.

また読む：

ソースcsail.mit.edu

サインアップ

0 コメント

埋め込まれたレビュー

すべてのコメントを表示

その他の記事

マサチューセッツ工科大学の科学者が機械学習の謎を解明

最近のコメント