「JARVIS-1に会おう:メモリ拡張型マルチモーダル言語モデルを持つオープンワールドマルチタスクエージェント」

「JARVIS-1と出会おう:メモリ拡張型マルチモーダル言語モデルを搭載したオープンワールドマルチタスクエージェント」

北京大学、UCLA、北京邮电大学和北京智能综合研究所的研究人员介绍了一种名为JARVIS-1的多模态代理,该代理用于Minecraft中的开放世界任务。JARVIS-1利用预训练的多模态语言模型解释视觉观察和人类指令,生成复杂的行动控制计划。

JARVIS-1利用多模态输入和语言模型进行计划和控制。JARVIS-1建立在预训练的多模态语言模型上,融合了多模态记忆,基于预训练的知识和游戏经验进行规划。在200个多样化任务中实现了接近完美的性能,尤其在具有挑战性的长视程钻石镐任务中取得了五倍的完成率提升。该研究强调了多模态记忆在增强代理自主性和开放世界场景中的智能的重要性。

该研究解决了在开放世界环境中为复杂任务创建复杂代理的挑战。现有方法需要在多模态数据、长期规划和终身学习方面进行改进。所提出的JARVIS-1代理,建立在预训练的多模态语言模型上,在Minecraft任务中表现出色。JARVIS-1在200个任务中实现了近乎完美的性能,显著改善了长视程钻石镐任务。该代理展示了自主学习的能力,在较少外部干预的情况下发展,为实现具备普遍能力的人工智能做出了贡献。

JARVIS-1建立在预训练的多模态语言模型上,结合视觉和文本输入生成计划。代理的多模态记忆将预训练的知识与游戏经验融合,用于规划。现有方法使用层次目标执行架构和大型语言模型作为高层规划器。JARVIS-1在Minecraft Universe基准测试中进行了评估,揭示了由于控制器对短视程文本指令的不完美执行而导致的钻石相关任务中的挑战。

JARVIS-1的多模态记忆促进了自我改进,通过超越其他指令跟随代理增强了总体智能和自主性。JARVIS-1在具有挑战性的任务中超过了没有记忆的DEPS,钻石相关任务的成功率几乎提高了三倍。该研究强调了在更容易执行的计划生成以及在钻石相关任务中提高控制器遵循指令能力方面的重要性。

JARVIS-1是建立在预训练的多模态语言模型上的开放世界代理,擅长于Minecraft宇宙中的多模态感知、计划生成和行动控制。通过整合多模态记忆,JARVIS-1利用预训练的知识和实时经验来增强决策能力。JARVIS-1在长视程钻石镐等任务的完成率大幅提高,超过以往记录多达五倍。这一突破为复杂虚拟环境中多功能和适应性代理的未来发展奠定了基础。

进一步的研究建议增强任务执行的计划生成,提高控制器在钻石相关任务中遵循指令的能力,并研究简化执行的方法。建议通过多模态记忆和实时经验探索提升开放世界场景中的决策能力的方式。推荐扩展JARVIS-1在Minecraft的更广泛任务范围内的能力,并在其他虚拟环境中进行潜在的适应。该研究鼓励通过终身学习不断改进,促进JARVIS-1的自我改进和更大程度的智能和自主性的发展。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

デューク大学の研究者たちは、ポリシーステッチングを提案していますこれは、ロボットとタスクの新しい組み合わせにおけるロボットの転送学習を容易にする、画期的なAIフレームワークです

ロボット工学では、環境の変化やロボット構造の変更に敏感なスキルをロボットに教えるために、強化学習(RL)を使用する際に...

データサイエンス

単一のマシンで複数のCUDAバージョンを管理する:包括的なガイド

私の以前の役職の一つでAIコンサルタントとして、仮想環境をPython環境を管理し、分離するツールとして利用するという課題が...

データサイエンス

学ぶための勇気: L1&L2正則化の解明(パート3)

「‘MLの学びへの勇気:L1とL2正則化の解読’ 第3回目にお帰りなさい前回は、正則化の目的について掘り下げ、L1とL2の方法を解...

機械学習

マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています

大規模言語モデル(LLM)は急速に進化し、経済や社会の変革に貢献しています。インターネット上には多くの人工知能(AI)ツー...

機械学習

「Mozilla Common Voiceにおける音声言語認識 — 音声変換」

これは、Mozilla Common Voiceデータセットに基づく話し言葉認識に関する3番目の記事です第1部では、データの選択とデータの...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...