UCバークレーの研究者は、Dynalangを紹介しますこれは、未来のテキストおよび画像表現を予測するためにマルチモーダルなワールドモデルを学習するAIエージェントであり、想像されたモデルのロールアウトからの行動を学習します

UCバークレーの研究者は、DynalangというAIエージェントを紹介しますこれは、未来のテキストと画像表現を予測するために学習するマルチモーダルなワールドモデルであり、想像されたモデルの行動を学習します

自然言語を使用して現実世界で人々と自然にコミュニケーションできるボットを作成することは、人工知能の目標の一つです。現在の具現化エージェントは、「青いブロックを取って」「エレベーターを過ぎて右に曲がって」といった単純で低レベルのコマンドを実行できます。しかし、対話エージェントは「ここと今」の範囲外で人々が言語を使う方法の全て、知識の伝達（例：「左上のボタンでテレビの電源を切る」）、状況情報（例：「牛乳が切れています」）、調整（例：「リビングルームの掃除機はもうした」）を理解できるようにする必要があります。

子供たちが読むテキストや他の人から聞く情報のほとんどは、世界の機能や現在の状況についての情報を伝えています。エージェントが他の言語で話すことを可能にするにはどうすればよいでしょうか？強化学習（RL）は、言語依存のエージェントに問題を解決するための技術です。しかし、現在使用されているほとんどの言語依存のRL技術は、タスク固有の指示からアクションを生成するように訓練されています。たとえば、「青いブロックを取って」という目標の説明を入力とし、一連のモーターコマンドを生成することで訓練されます。自然言語が現実の世界で果たす役割の多様性を考慮すると、言語を最適な行動に直接マッピングすることは難しい学習の課題となります。

作業が片付けである場合、エージェントは次の片付けの手順に移るように答えるべきですが、夕食を提供する場合はボウルを集めるべきです。例えば「私はボウルを片付けました」という場合を考えてみましょう。仕事について話さない場合、言語はエージェントにとって最適な行動と弱い相関関係しか持ちません。その結果、言語を活用して活動を完了するためにさまざまな言語入力を使用するための学習信号として、タスク報酬のみの言語から活動へのマッピングがより良い学習信号となる可能性があります。代わりに、彼らは言語の統一的な機能は将来の予測を支援することだと提案しています。「私はボウルを片付けました」というフレーズによって、エージェントは将来の観測をより正確に予測することができます（つまり、キャビネットを開ければ中にボウルがあることがわかる）。

この意味で、子供たちが出会う言語の大部分は視覚的な経験に根ざしているかもしれません。エージェントは「レンチはナットを締めるために使用できる」というような事前の情報を使用して環境の変化を予測することができます。エージェントは「パッケージは外にある」というような発言によって観測を予測するかもしれません。このパラダイムは、指示がエージェントが報酬を予想するのに役立つという予測的な用語の下で一般的な指示の従い方を組み合わせています。彼らは、将来の表現を予測することがエージェントに言語を理解し、その言語が外部世界とどのように相互作用するかを理解するのに豊かな学習信号を提供すると主張しています。次のトークンの予測が言語モデルが世界の知識の内部表現を構築するのに役立つように、これらの貢献は示しています。

UCバークレーの研究者は、Dynalangというエージェントを紹介しています。Dynalangはオンラインの経験を通じて世界の言語と視覚モデルを獲得し、そのモデルを理解して行動する方法を利用します。Dynalangは、そのモデルを使用して行動を学習する（タスク報酬を持つ強化学習）と、言語で世界のモデルを学習する（予測ターゲットを持つ教師あり学習）を分離します。世界モデルは、視覚的およびテキストの入力を観測モダリティとして受け取り、それらは潜在空間に圧縮されます。エージェントが周囲と対話する中で収集したデータを使用して、世界モデルを将来の潜在的な表現を予測するように訓練します。世界モデルの潜在的な表現を入力として使用し、タスク報酬を最大化するための意思決定を行うポリシーを訓練します。

世界モデリングは行動とは異なるため、Dynalangは作業やタスク報酬のない単一のモダリティ（テキストのみまたはビデオのみのデータ）で事前に訓練することができます。また、言語生成のためのフレームワークも統一される可能性があります。エージェントの知覚は言語モデルに影響を与えることができます（つまり、将来のトークンに関する予測を行い、行動空間で言語を生成することにより、環境についてコミュニケーションすることができます）。彼らはDynalangをさまざまな言語的文脈を持つさまざまなドメインでテストしています。Dynalangは、ビジョン言語ナビゲーションにおいて、視覚的および言語的に複雑な領域での指示を理解するために、将来の観測、環境ダイナミクス、修正に関する言語的手がかりを利用して、マルチタスクの家庭清掃設定でタスクをより迅速に実行することを学習します。Messengerベンチマークでは、Dynalangはゲームの最も困難なステージに合わせるためにゲームマニュアルを読み込み、タスク固有のアーキテクチャを上回る成績を収めます。これらの貢献は、Dynalangがさまざまなタスクを達成するためにさまざまな形式の言語を理解することを学習し、最先端の強化学習アルゴリズムやタスク固有のアーキテクチャに頻繁に勝ることを示しています。

彼らが行った貢献は以下の通りです：

• 彼らは、将来の予測を利用して言語と視覚体験を結びつけるエージェントであるDynalangを提案しています。

• Dynalangは、さまざまな種類の言語を理解し、様々なタスクに取り組むために学習することにより、最新のRLアルゴリズムやタスク固有の設計を凌駕していることを示しています。

• Dynalangの形式は、アクションやタスクのインセンティブなしで、テキストの事前学習と言語生成を組み合わせる能力を含む新たな可能性を開くことを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

Was this article helpful?

データサイエンスにおけるデータクリーニングの重要性

「DCGANモデルの作成手順ガイド」

AI研究

「MM-VID for GPT-4V(ision)による進化するAIビデオ理解の解放」

最も困難な部分：分類の目標を定義すること

マイクロソフトAIチームがPhi-2を紹介：2.7Bパラメーターの小型言語モデルで、優れた推論能力と言語理解能力を示します

マルチAIの協力により、大規模な言語モデルの推論と事実の正確さが向上します

「SPHINXをご紹介します：トレーニングタスク、データドメイン、および視覚的なエンベッディングをミキシングした多目的なマルチモーダル大規模言語モデル（MLLM）」

自動小売りチェックアウトは、ラベルのない農産物をどのように認識するのか？ PseudoAugmentコンピュータビジョンアプローチとの出会い