ReALM

AppleMachine Learning Researchが、arXivにおいて「ReALM: Reference Resolution As Language Modeling」を論文発表しています。

ReALMは、画面上の物体への曖昧な言及や会話や背景の文脈を理解し、音声アシスタントとのより自然なやりとりを可能にする新たな人工知能システムだと説明しています。

ReALMの最小のモデルでは、画面上の参照において5%以上の絶対的な改善を得ることができたとし、また、GPT-3.5とGPT-4に対するベンチマークを行い、ReALMの最小モデルはGPT-4と同等の性能を達成し、ReALMの大型モデルはGPT-4を大幅に上回る性能を達成したと説明しています。

Appleは、会話アシスタントには、参照を含むコンテキストを理解できることが不可欠だと説明していて、ユーザーが画面に表示されている内容について質問できるようにすることは、音声アシスタントで真のハンズフリー体験を実現するための重要なステップだとしています。