Root NationニュースITニュースマサチューセッツ工科大学の科学者が機械学習の謎を解明

マサチューセッツ工科大学の科学者が機械学習の謎を解明

-

2010 年以降、ソフトウェア アルゴリズムの大幅な改善が始まり、これが強力なコンピューターと相まって、ニューラル ネットワークの急速な発展に弾みをつけました。 ソフトウェア モデルは何千もの例でトレーニングされ、後で独自のアクションを形成します。 今日、最も有名なニューラルネットワークはこれです OpenAI GPT-3. これは、大量のインターネット データの助けを借りて学習する機械学習モデルであり、テキストの小さな断片を取り、かなり高いレベルで不十分な断片を追加することができます。 これは、物語のテキストだけでなく、詩やソフトウェア コードの行にも当てはまります。

ニューラルネットワーク

しかし、これはこの計画のモデルができることのすべてではありません。 研究者は、「文脈学習」として知られる興味深い現象を研究しています。この現象では、大規模な言語モデルは、タスクのトレーニングを受けていなくても、いくつかの例を見ただけでタスクを実行することを学習します。

マサチューセッツ工科大学、Google リサーチ、スタンフォード大学の科学者たちは、この謎を解こうとしています。 コンテキスト学習では、モデル パラメーターは更新されないため、モデルは何も学習せずに新しいタスクを学習しているように見えます。

ニューラルネットワーク

研究者の理論的結果は、ニューラル ネットワークのこれらの大規模なモデルが、その内部に隠されたより小さくて単純な線形モデルを含むことができることを示しています。 次に、大規模なモデルは、大規模なモデルに既に含まれている情報のみを使用して、この小さな線形モデルをトレーニングして新しいタスクを実行する単純なアルゴリズムを実装できます。

文脈学習をより深く理解することで、科学者は費用のかかる再トレーニングなしでモデルを使用して新しいタスクを実装できるようになります。 つまり、まず、特定のタスクについて、トレーニングが行われることに基づいて大量のデータを収集する必要があります。 そのため、トレーニングが行われるおかげで、ニューラル ネットワークにほんの数例を提供することが可能になります。

「文脈学習は理不尽に効果的な学習現象であり、理解する必要があります」.

ニューラルネットワーク

ニューラルネットワークモデルには、古いモデルに新しいタスクを実行するように教えることができる、より小さな機械学習モデルがあるという仮説が立てられています。 彼らの理論をテストするために、科学者はGPT-3とアーキテクチャが非常に似ているニューラルネットワークモデルを採用しましたが、コンテキストでの学習のために特別に構築されました. つまり、以前のレイヤー内にモデルが実装され、線形モデルの学習に従事し、単純な学習アルゴリズムを実装していました。

「これらの結果は、モデルがより複雑なタスクを学習する方法を理解するための足がかりであり、研究者が言語モデルをトレーニングしてパフォーマンスをさらに向上させるためのより効果的な方法を開発するのに役立ちます。」.

また読む:

ソースcsail.mit.edu
サインアップ
について通知する
ゲスト

0 コメント
埋め込まれたレビュー
すべてのコメントを表示