Apple 展示了其新的 AI 模型 ReALM

研究人员 Apple 开发了一种名为 ReALM（参考解析语言建模）的人工智能系统，旨在从根本上改善语音助手理解和响应命令的方式。

在一篇研究论文中 Apple 描述了一个新的框架，用于大型语言模型如何解决引用解析问题，其中包括破译对屏幕上对象的模糊引用，以及理解会话和背景上下文。因此，ReALM 可以实现与设备更直观、更自然的交互。

指称识别是理解自然语言的重要组成部分，允许用户在对话中使用代词和其他间接指称而不会混淆。对于数字助理来说，这种能力历来是一个重大挑战，因为需要解释各种口头信号和视觉信息。 ReALM 系统来自 Apple 旨在通过将复杂的参考识别过程转变为纯粹的语言建模任务来解决这个问题。通过这种方式，她可以理解对屏幕上显示的视觉元素的引用，并将这种理解融入到对话流程中。

ReALM 使用文本表示重建屏幕的视觉结构。这包括解析屏幕对象并排列它们以创建反映屏幕内容和结构的文本格式。研究人员 Apple 研究发现，该策略与针对基准解决问题的语言模型的特殊调整相结合，显着优于传统方法，包括 OpenAI 的 GPT-4 功能。

ReALM 可以使用户根据屏幕上当前显示的内容更有效地与数字助理进行交互，而无需精确、详细的说明。这可以使语音助手在各种情况下更加有用，例如帮助驾驶员在驾驶时导航信息娱乐系统，或通过提供更简单、更准确的间接交互方式来帮助残疾用户。

Apple 目前已在人工智能领域发表多篇研究论文。上个月，该公司推出了一种学习大型语言模型的新方法，可以无缝集成文本和视觉信息。预计 Apple 将在 6 月的 WWDC 大会上推出多项 AI 功能。

另请阅读：

Dzherelo加拿大家园

注册

0 评论

嵌入式评论

查看所有评论

其他文章

Apple 推出新的人工智能模型ReALM

最近的评论