麻省理工科学家解开了机器学习之谜—

2010 年后，软件算法开始大幅改进，这与功能强大的计算机一起推动了神经网络的快速发展。软件模型在数以千计的示例上进行训练和训练，以形成以后自己的动作。今天最著名的神经网络就是这个 OpenAI GPT-3. 这是一种机器学习模型，借助大量互联网数据进行学习，可以取一小段文本并在相当高的层次上添加不足的片段。这不仅适用于叙事文本，也适用于诗歌，以及软件代码行。

但这并不是该计划模型的全部功能。研究人员正在研究一种被称为“在上下文中学习”的有趣现象，在这种现象中，大型语言模型在仅看到几个示例后就学会了执行任务，即使它没有接受过任务训练。

来自麻省理工学院、谷歌研究院和斯坦福大学的科学家正试图解开这个谜团。使用上下文学习，模型参数不会更新，因此看起来模型正在学习一项新任务，但根本没有学习任何东西。

研究人员的理论结果表明，这些庞大的神经网络模型能够包含隐藏在其中的更小、更简单的线性模型。然后，大型模型可以实施一个简单的算法来训练这个较小的线性模型来执行新任务，只使用大型模型中已经包含的信息。

由于对情境学习有了更深入的了解，科学家们将能够使用模型执行新任务，而无需进行昂贵的再培训。也就是说，首先，对于任何特定任务，都需要收集大量数据，并以此为基础进行训练。因此，将有可能只为神经网络提供几个例子，多亏了这些例子，训练才会发生。

“情境学习是一种不合理的有效学习现象，需要被理解”.

假设神经网络模型中有较小的机器学习模型可以教旧模型执行新任务。为了检验他们的理论，科学家们采用了一个神经网络模型，该模型在架构上与 GPT-3 非常相似，但专为在上下文中学习而构建。也就是说，在较早的层中，实现了一个模型，该模型用于学习线性模型，实现简单的学习算法。

“这些结果是了解模型如何学习更复杂任务的垫脚石，并将帮助研究人员开发更有效的训练语言模型的方法，以进一步提高其性能。”.

另请阅读：

Dzherelocsail.mit.edu网站

注册

0 评论

嵌入式评论

查看所有评论

其他文章

麻省理工学院科学家解开机器学习之谜

最近的评论