「CMUの研究者たちは、TIDEEを提案します:明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」

CMU researchers propose TIDEE an embodied agent that can organize unfamiliar rooms without explicit instructions.

効果的なロボットの運用には、予め決められた命令にただ従うだけでなく、明らかな異常から応答し、不完全な指示から重要な文脈を推論できる必要があります。部分的または自己生成された指示は、環境の物体、物理学、他のエージェントなどがどのように行動するかをしっかり理解することを必要とする推論を必要とします。このタイプの思考と行動は、実世界でロボットが自然に作業し、相互作用するために必要な共通感覚の推論の重要な要素です。

具体的な手順に従うことができる具体的なエージェントに比べて、具体的な共通感覚の思考の分野は遅れています。前者は明示的な指示なしに観察し、行動することを学ばなければなりません。具体的な常識的な思考は、整理するなどのタスクを通じて研究されるかもしれません。このタスクでは、エージェントは間違った場所にあるアイテムを認識し、適切な設定に戻すために修正アクションを行う必要があります。エージェントは、物体を移動させるために探索しながら賢明にナビゲートおよび操作し、現在のシーンで物体が自然な場所から外れていることを認識し、物体を再配置する場所を決定する必要があります。物体配置の常識的な推論と知的な存在の望ましいスキルがこの課題で結びついています。

TIDEEは、ガイダンスなしに以前見たことのないスペースを掃除できると研究チームによって提案された具体的なエージェントです。TIDEEは、シーンをスキャンして、正しい場所にないアイテムを見つけ、それをシーンの適切な場所に移動する方法を見つけることができるため、このようなエージェントは初めてです。

TIDEEは、家の周囲を調査し、配置が間違っているものを見つけ、それらのための可能なオブジェクトのコンテキストを推論し、現在のシーンでそのようなコンテキストを特定し、オブジェクトを正しい場所に戻します。共通の推論は、エージェントの探索を効率的に行うための視覚的な検索ネットワークにエンコードされています。視覚的な意味検出器は、場違いのオブジェクトを検出します。また、オブジェクトの再配置のための適切なセマンティックな受け入れ先と表面を提案する事柄と空間関係の連想ニューラルグラフメモリも存在します。AI2THORシミュレーション環境を使用して、研究者はTIDEEをカオスな環境で掃除させました。TIDEEは、同じ部屋を以前に見たことがなく、別のトレーニングホームの学習からのみ学習した事前知識のみを使用して、ピクセルと生の深さの入力から直接タスクを完了します。人間による部屋のレイアウト変更の評価によれば、一つまたは複数の常識的な事前条件を除外したモデルの実験的なバリエーションよりもTIDEEのパフォーマンスが優れているとされています。

TIDEEは、質問された場所やオブジェクトに事前のガイダンスや先行の接触なしで以前見たことのないスペースをきれいにすることができます。TIDEEは、エリアを見回し、アイテムを識別し、それらを正常または異常としてラベル付けします。TIDEEは、シーングラフと外部グラフメモリ上でグラフ推論を行い、オブジェクトが適切な場所にない場合に受け入れ先のカテゴリを推測します。それから、シーンの空間的セマンティックマップを使用して、受け入れ先カテゴリの可能な場所に画像ベースの検索ネットワークを誘導します。

どのように機能しますか?

TIDEEは、3つの異なるステップで部屋を掃除します。TIDEEは、エリアをスキャンし、各タイムステップで異常検出器を実行し、不審なオブジェクトが見つかるまで続行します。それから、TIDEEはアイテムがある場所に移動し、それを取ります。第2のステップでは、TIDEEは、シーングラフと共同外部グラフメモリに基づいてアイテムのための受け入れ先を推測します。コンテナをまだ認識していない場合、TIDEEは、エリアの探索を誘導し、コンテナが見つかる可能性のある場所を示唆します。TIDEEは、以前に識別されたオブジェクトの推定3D重心をメモリに保持し、この情報をナビゲーションとオブジェクトの追跡に使用します。

各アイテムの視覚的属性は、市販のオブジェクト検出器を使用して収集されます。同時に、関係言語の特徴は、オブジェクト間の3D関係(「隣り合っている」、「支持されている」、「上にある」など)のための事前学習された言語モデルの予測をフィードすることによって生成されます。

TIDEEには、オブジェクトが持ち上げられた後に可能なアイテム配置のアイデアを予測するためのニューラルグラフモジュールが含まれています。アイテムの配置、トレーニングシナリオから学習した、コンテキストの接続を保持するメモリグラフ、および現在のシーンでのオブジェクト-関係構成をエンコードするシーングラフが相互作用してモジュールを機能させます。

TIDEEは、セマンティック障害マップと検索カテゴリを与えられた障害マップの各空間点におけるオブジェクトの存在の可能性を予測する光学的検索ネットワークを使用しています。その後、エージェントは、ターゲットが含まれると思われる最も可能性が高い領域を調べます。

TIDEEには2つの欠点がありますが、どちらも将来の研究の明白な方向性です。それはアイテムの開いた状態と閉じた状態を考慮していないこと、また混沌とした再構築プロセスの一部としてそれらの3Dの姿勢を含んでいないことです。

部屋に物を乱雑に散らばらせることから生じる混沌は、現実の混沌を代表している可能性があります。

TIDEEは、以前に同じ部屋を見たことがなく、ピクセルと生の深度入力のみを使用して作業を完了し、異なるトレーニングホームのコレクションから学習した先行知識のみを使用します。結果の部屋のレイアウト変更の人間による評価によれば、TIDEEは、一つ以上の常識的な先行知識を除外したモデルの劣化変種よりも優れたパフォーマンスを発揮します。単純化されたモデルバージョンは、比較可能な部屋の再配置ベンチマークで最も優れた解決策を大幅に上回り、エージェントが再配置前の目的の状態を観察することを可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

GoogleのプロジェクトOpen Se Curaをご紹介しますこれは、セキュアでスケーラブル、透明性の高い、効率的なAIシステムの開発を加速するためのオープンソースフレームワークです

AIの成長とともに、それは生活のあらゆる側面で使用されています。その応用はあらゆる分野に広がり、さまざまな分野への取り...

AIニュース

広告主向けのAIパワードイメージ生成ツールを試験的に導入中のAmazon

広告主がマーケティングコンテンツを作成する方法を革新するために、Amazonは先進のAI技術を広告およびマーケティングツール...

AI研究

スタンフォード大学の新しい人工知能研究は、説明が意思決定時のAIシステムへの過度の依存を軽減する方法を示しています

近年の人工知能(AI)のブームは、AIの能力によって仕事がより速く、より少ない労力で行われることによって、人間の生活がど...

AI研究

「UTオースティンの研究者が、LIBEROを導入:意思決定とロボット工学における知識移転を研究するためのライフロング・ロボット・ラーニング・ベンチマーク」

LIBEROは、宣言的および手続き的なドメインでの知識の転送に焦点を当てた、ロボット操作におけるライフロングラーニングの基...

機械学習

このAIの論文では、プログラミング言語が指示調整を通じて互いを向上させる方法について説明しています

大型言語モデル(LLM)の導入は世界中で大きな話題となっています。これらのモデルは、人間のように独自で創造的なコンテンツ...

機械学習

「RBIは、規制監督のためにAIを活用するために、マッキンゼーとアクセンチュアと提携します」

規制監督における重要な変化を示す動きとして、インド準備銀行(RBI)は、国際的なコンサルティング企業であるマッキンゼー・...