「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

「JARVIS-1と出会おう:メモリ拡張型マルチモーダル言語モデルを搭載したオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的开放世界任务。JARVIS-1利用预训练的多模态语言模型解释视觉观察和人类指令,生成复杂的行动控制计划。

JARVIS-1利用多模态输入和语言模型进行计划和控制。JARVIS-1建立在预训练的多模态语言模型上,融合了多模态记忆,基于预训练的知识和游戏经验进行规划。在200个多样化任务中实现了接近完美的性能,尤其在具有挑战性的长视程钻石镐任务中取得了五倍的完成率提升。该研究强调了多模态记忆在增强代理自主性和开放世界场景中的智能的重要性。

该研究解决了在开放世界环境中为复杂任务创建复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。所提出的JARVIS-1代理,建立在预训练的多模态语言模型上,在Minecraft任务中表现出色。JARVIS-1在200个任务中实现了近乎完美的性能,显著改善了长视程钻石镐任务。该代理展示了自主学习的能力,在较少外部干预的情况下发展,为实现具备普遍能力的人工智能做出了贡献。

JARVIS-1建立在预训练的多模态语言模型上,结合视觉和文本输入生成计划。代理的多模态记忆将预训练的知识与游戏经验融合,用于规划。现有方法使用层次目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft Universe基准测试中进行了评估,揭示了由于控制器对短视程文本指令的不完美执行而导致的钻石相关任务中的挑战。

JARVIS-1的多模态记忆促进了自我改进,通过超越其他指令跟随代理增强了总体智能和自主性。JARVIS-1在具有挑战性的任务中超过了没有记忆的DEPS,钻石相关任务的成功率几乎提高了三倍。该研究强调了在更容易执行的计划生成以及在钻石相关任务中提高控制器遵循指令能力方面的重要性。

JARVIS-1是建立在预训练的多模态语言模型上的开放世界代理,擅长于Minecraft宇宙中的多模态感知、计划生成和行动控制。通过整合多模态记忆,JARVIS-1利用预训练的知识和实时经验来增强决策能力。JARVIS-1在长视程钻石镐等任务的完成率大幅提高,超过以往记录多达五倍。这一突破为复杂虚拟环境中多功能和适应性代理的未来发展奠定了基础。

进一步的研究建议增强任务执行的计划生成,提高控制器在钻石相关任务中遵循指令的能力,并研究简化执行的方法。建议通过多模态记忆和实时经验探索提升开放世界场景中的决策能力的方式。推荐扩展JARVIS-1在Minecraft的更广泛任务范围内的能力,并在其他虚拟环境中进行潜在的适应。该研究鼓励通过终身学习不断改进,促进JARVIS-1的自我改进和更大程度的智能和自主性的发展。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

コンピュータサイエンス

ジェイソン・アーボン:「百万年後、超パワフルなコンピュータは我々の時代のテスターたちを称えるでしょう」

「Jason Arbonと一緒に、テストにおけるAIの使用、いくぶん不公平なマニュアルQA vs. 自動化QAの闘い、新しいテクノロジーの...

データサイエンス

Deep Learningモデルのトレーニングをスーパーチャージ

90%に到達すると精度が初めのほうでは簡単に向上しますが、それ以上の改善を得るためには非常に力を入れなければならないとい...

人工知能

PaaS4GenAI Oracle Integration CloudからIBM Cloudプラットフォーム上のGenerative AI (WatsonX)との接続

「オラクル統合クラウドとIBMクラウドプラットフォーム上のGenerative AI WatsonXを活用したマルチクラウド接続のソリューシ...

AIニュース

(sekai no toppu 10 no sōsei AI sutātappu)

はじめに 生成AIは現在、世界中の人々の好奇心を引きつけています。私たちのソーシャルネットワーキングフィード内の仮想キャ...

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...