「CMUの研究者たちは、TIDEEを提案します:明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」

CMU researchers propose TIDEE an embodied agent that can organize unfamiliar rooms without explicit instructions.

効果的なロボットの運用には、予め決められた命令にただ従うだけでなく、明らかな異常から応答し、不完全な指示から重要な文脈を推論できる必要があります。部分的または自己生成された指示は、環境の物体、物理学、他のエージェントなどがどのように行動するかをしっかり理解することを必要とする推論を必要とします。このタイプの思考と行動は、実世界でロボットが自然に作業し、相互作用するために必要な共通感覚の推論の重要な要素です。

具体的な手順に従うことができる具体的なエージェントに比べて、具体的な共通感覚の思考の分野は遅れています。前者は明示的な指示なしに観察し、行動することを学ばなければなりません。具体的な常識的な思考は、整理するなどのタスクを通じて研究されるかもしれません。このタスクでは、エージェントは間違った場所にあるアイテムを認識し、適切な設定に戻すために修正アクションを行う必要があります。エージェントは、物体を移動させるために探索しながら賢明にナビゲートおよび操作し、現在のシーンで物体が自然な場所から外れていることを認識し、物体を再配置する場所を決定する必要があります。物体配置の常識的な推論と知的な存在の望ましいスキルがこの課題で結びついています。

TIDEEは、ガイダンスなしに以前見たことのないスペースを掃除できると研究チームによって提案された具体的なエージェントです。TIDEEは、シーンをスキャンして、正しい場所にないアイテムを見つけ、それをシーンの適切な場所に移動する方法を見つけることができるため、このようなエージェントは初めてです。

TIDEEは、家の周囲を調査し、配置が間違っているものを見つけ、それらのための可能なオブジェクトのコンテキストを推論し、現在のシーンでそのようなコンテキストを特定し、オブジェクトを正しい場所に戻します。共通の推論は、エージェントの探索を効率的に行うための視覚的な検索ネットワークにエンコードされています。視覚的な意味検出器は、場違いのオブジェクトを検出します。また、オブジェクトの再配置のための適切なセマンティックな受け入れ先と表面を提案する事柄と空間関係の連想ニューラルグラフメモリも存在します。AI2THORシミュレーション環境を使用して、研究者はTIDEEをカオスな環境で掃除させました。TIDEEは、同じ部屋を以前に見たことがなく、別のトレーニングホームの学習からのみ学習した事前知識のみを使用して、ピクセルと生の深さの入力から直接タスクを完了します。人間による部屋のレイアウト変更の評価によれば、一つまたは複数の常識的な事前条件を除外したモデルの実験的なバリエーションよりもTIDEEのパフォーマンスが優れているとされています。

TIDEEは、質問された場所やオブジェクトに事前のガイダンスや先行の接触なしで以前見たことのないスペースをきれいにすることができます。TIDEEは、エリアを見回し、アイテムを識別し、それらを正常または異常としてラベル付けします。TIDEEは、シーングラフと外部グラフメモリ上でグラフ推論を行い、オブジェクトが適切な場所にない場合に受け入れ先のカテゴリを推測します。それから、シーンの空間的セマンティックマップを使用して、受け入れ先カテゴリの可能な場所に画像ベースの検索ネットワークを誘導します。

どのように機能しますか?

TIDEEは、3つの異なるステップで部屋を掃除します。TIDEEは、エリアをスキャンし、各タイムステップで異常検出器を実行し、不審なオブジェクトが見つかるまで続行します。それから、TIDEEはアイテムがある場所に移動し、それを取ります。第2のステップでは、TIDEEは、シーングラフと共同外部グラフメモリに基づいてアイテムのための受け入れ先を推測します。コンテナをまだ認識していない場合、TIDEEは、エリアの探索を誘導し、コンテナが見つかる可能性のある場所を示唆します。TIDEEは、以前に識別されたオブジェクトの推定3D重心をメモリに保持し、この情報をナビゲーションとオブジェクトの追跡に使用します。

各アイテムの視覚的属性は、市販のオブジェクト検出器を使用して収集されます。同時に、関係言語の特徴は、オブジェクト間の3D関係(「隣り合っている」、「支持されている」、「上にある」など)のための事前学習された言語モデルの予測をフィードすることによって生成されます。

TIDEEには、オブジェクトが持ち上げられた後に可能なアイテム配置のアイデアを予測するためのニューラルグラフモジュールが含まれています。アイテムの配置、トレーニングシナリオから学習した、コンテキストの接続を保持するメモリグラフ、および現在のシーンでのオブジェクト-関係構成をエンコードするシーングラフが相互作用してモジュールを機能させます。

TIDEEは、セマンティック障害マップと検索カテゴリを与えられた障害マップの各空間点におけるオブジェクトの存在の可能性を予測する光学的検索ネットワークを使用しています。その後、エージェントは、ターゲットが含まれると思われる最も可能性が高い領域を調べます。

TIDEEには2つの欠点がありますが、どちらも将来の研究の明白な方向性です。それはアイテムの開いた状態と閉じた状態を考慮していないこと、また混沌とした再構築プロセスの一部としてそれらの3Dの姿勢を含んでいないことです。

部屋に物を乱雑に散らばらせることから生じる混沌は、現実の混沌を代表している可能性があります。

TIDEEは、以前に同じ部屋を見たことがなく、ピクセルと生の深度入力のみを使用して作業を完了し、異なるトレーニングホームのコレクションから学習した先行知識のみを使用します。結果の部屋のレイアウト変更の人間による評価によれば、TIDEEは、一つ以上の常識的な先行知識を除外したモデルの劣化変種よりも優れたパフォーマンスを発揮します。単純化されたモデルバージョンは、比較可能な部屋の再配置ベンチマークで最も優れた解決策を大幅に上回り、エージェントが再配置前の目的の状態を観察することを可能にします。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「HaystackにおけるRAGパイプラインの拡張 DiversityRankerとLostInTheMiddleRankerの紹介」

最近の自然言語処理(NLP)と長文質問応答(LFQA)の進歩は、わずか数年前にはまるでSFの世界から来たようなものだと思われて...

データサイエンス

「コンパートメント化拡散モデル(CDM) 異なるデータソース上で異なる拡散モデルまたはプロンプトをトレーニングするためのAIアプローチ」

最近の技術の進歩と人工知能の分野における発展により、多くの進展がありました。有名なChatGPTモデルを使用したテキスト生成...

データサイエンス

データ変換ツールにおけるAIの展望

人工知能はデータ変換ツールを革新し、効率性、正確性、リアルタイム処理を向上させています

AI研究

UCSDの研究者が、チューリングテストでのGPT-4のパフォーマンスを評価:人間のような欺瞞とコミュニケーション戦略のダイナミクスを明らかにする

GPT-4はUCSDの研究者グループによってインターネット上の一般的なチューリングテストで試験されました。最も優れたGPT-4のプ...

AI研究

宇宙からの詳細な画像は、植物に対する干ばつの影響をより明確に示します

J-WAFSの研究者たちは、遠隔センシング観測を利用して、干ばつを監視するための高解像度システムを構築しています

機械学習

自動化、Ansible、人工知能

AnsibleがAIツールを統合開発環境に導入し、自動化コーディングの経験をよりシンプルでスムーズかつ効率的にする方法について...