「JARVIS-1に会おう：メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

「JARVIS-1と出会おう：メモリ拡張型マルチモーダル言語モデルを搭載したオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理，该代理用于Minecraft中的开放世界任务。JARVIS-1利用预训练的多模态语言模型解释视觉观察和人类指令，生成复杂的行动控制计划。

JARVIS-1利用多模态输入和语言模型进行计划和控制。JARVIS-1建立在预训练的多模态语言模型上，融合了多模态记忆，基于预训练的知识和游戏经验进行规划。在200个多样化任务中实现了接近完美的性能，尤其在具有挑战性的长视程钻石镐任务中取得了五倍的完成率提升。该研究强调了多模态记忆在增强代理自主性和开放世界场景中的智能的重要性。

该研究解决了在开放世界环境中为复杂任务创建复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。所提出的JARVIS-1代理，建立在预训练的多模态语言模型上，在Minecraft任务中表现出色。JARVIS-1在200个任务中实现了近乎完美的性能，显著改善了长视程钻石镐任务。该代理展示了自主学习的能力，在较少外部干预的情况下发展，为实现具备普遍能力的人工智能做出了贡献。

JARVIS-1建立在预训练的多模态语言模型上，结合视觉和文本输入生成计划。代理的多模态记忆将预训练的知识与游戏经验融合，用于规划。现有方法使用层次目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft Universe基准测试中进行了评估，揭示了由于控制器对短视程文本指令的不完美执行而导致的钻石相关任务中的挑战。

JARVIS-1的多模态记忆促进了自我改进，通过超越其他指令跟随代理增强了总体智能和自主性。JARVIS-1在具有挑战性的任务中超过了没有记忆的DEPS，钻石相关任务的成功率几乎提高了三倍。该研究强调了在更容易执行的计划生成以及在钻石相关任务中提高控制器遵循指令能力方面的重要性。

JARVIS-1是建立在预训练的多模态语言模型上的开放世界代理，擅长于Minecraft宇宙中的多模态感知、计划生成和行动控制。通过整合多模态记忆，JARVIS-1利用预训练的知识和实时经验来增强决策能力。JARVIS-1在长视程钻石镐等任务的完成率大幅提高，超过以往记录多达五倍。这一突破为复杂虚拟环境中多功能和适应性代理的未来发展奠定了基础。

进一步的研究建议增强任务执行的计划生成，提高控制器在钻石相关任务中遵循指令的能力，并研究简化执行的方法。建议通过多模态记忆和实时经验探索提升开放世界场景中的决策能力的方式。推荐扩展JARVIS-1在Minecraft的更广泛任务范围内的能力，并在其他虚拟环境中进行潜在的适应。该研究鼓励通过终身学习不断改进，促进JARVIS-1的自我改进和更大程度的智能和自主性的发展。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickMachine learningStaff

Was this article helpful?

93 out of 132 found this helpful

「JARVIS-1に会おう：メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

Was this article helpful?

2023年のデータの求人市場を解読する：数字は過剰供給か機会を示唆しているのか？

「Pandasを使用したSpark上のPythonの並列化並行性のオプション」

機械学習

テキストから画像への革命：SegmindのSD-1Bモデルが最速のゲームで登場

「GPT-4が怠け者です：OpenAIが認める」

「2023年の最高の声クローニングソフトウェア10選」

Android 14：より多様なカスタマイズ、制御、アクセシビリティ機能

「Unblock Your Software Engineers With Unblocked（アンブロックドでソフトウェアエンジニアを活用しましょう）」

このAI論文は、高度な時空間予測のためのニューラルオペレータの自己回帰エラーに対するディープラーニングソリューションを探求しています