「CMUの研究者たちは、TIDEEを提案します:明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」
CMU researchers propose TIDEE an embodied agent that can organize unfamiliar rooms without explicit instructions.
効果的なロボットの運用には、予め決められた命令にただ従うだけでなく、明らかな異常から応答し、不完全な指示から重要な文脈を推論できる必要があります。部分的または自己生成された指示は、環境の物体、物理学、他のエージェントなどがどのように行動するかをしっかり理解することを必要とする推論を必要とします。このタイプの思考と行動は、実世界でロボットが自然に作業し、相互作用するために必要な共通感覚の推論の重要な要素です。
具体的な手順に従うことができる具体的なエージェントに比べて、具体的な共通感覚の思考の分野は遅れています。前者は明示的な指示なしに観察し、行動することを学ばなければなりません。具体的な常識的な思考は、整理するなどのタスクを通じて研究されるかもしれません。このタスクでは、エージェントは間違った場所にあるアイテムを認識し、適切な設定に戻すために修正アクションを行う必要があります。エージェントは、物体を移動させるために探索しながら賢明にナビゲートおよび操作し、現在のシーンで物体が自然な場所から外れていることを認識し、物体を再配置する場所を決定する必要があります。物体配置の常識的な推論と知的な存在の望ましいスキルがこの課題で結びついています。
TIDEEは、ガイダンスなしに以前見たことのないスペースを掃除できると研究チームによって提案された具体的なエージェントです。TIDEEは、シーンをスキャンして、正しい場所にないアイテムを見つけ、それをシーンの適切な場所に移動する方法を見つけることができるため、このようなエージェントは初めてです。
- USCの研究者は、新しい共有知識生涯学習(SKILL)チャレンジを提案しましたこのチャレンジでは、分散型のLLエージェントの集団が展開され、各エージェントが個別に異なるタスクを順次学習し、全てのエージェントが独立かつ並行して動作します
- この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します
- 「UBCカナダの研究者が、都市ドライバーに最も安全な経路をマッピングする新しいAIアルゴリズムを紹介」
TIDEEは、家の周囲を調査し、配置が間違っているものを見つけ、それらのための可能なオブジェクトのコンテキストを推論し、現在のシーンでそのようなコンテキストを特定し、オブジェクトを正しい場所に戻します。共通の推論は、エージェントの探索を効率的に行うための視覚的な検索ネットワークにエンコードされています。視覚的な意味検出器は、場違いのオブジェクトを検出します。また、オブジェクトの再配置のための適切なセマンティックな受け入れ先と表面を提案する事柄と空間関係の連想ニューラルグラフメモリも存在します。AI2THORシミュレーション環境を使用して、研究者はTIDEEをカオスな環境で掃除させました。TIDEEは、同じ部屋を以前に見たことがなく、別のトレーニングホームの学習からのみ学習した事前知識のみを使用して、ピクセルと生の深さの入力から直接タスクを完了します。人間による部屋のレイアウト変更の評価によれば、一つまたは複数の常識的な事前条件を除外したモデルの実験的なバリエーションよりもTIDEEのパフォーマンスが優れているとされています。
TIDEEは、質問された場所やオブジェクトに事前のガイダンスや先行の接触なしで以前見たことのないスペースをきれいにすることができます。TIDEEは、エリアを見回し、アイテムを識別し、それらを正常または異常としてラベル付けします。TIDEEは、シーングラフと外部グラフメモリ上でグラフ推論を行い、オブジェクトが適切な場所にない場合に受け入れ先のカテゴリを推測します。それから、シーンの空間的セマンティックマップを使用して、受け入れ先カテゴリの可能な場所に画像ベースの検索ネットワークを誘導します。
どのように機能しますか?
TIDEEは、3つの異なるステップで部屋を掃除します。TIDEEは、エリアをスキャンし、各タイムステップで異常検出器を実行し、不審なオブジェクトが見つかるまで続行します。それから、TIDEEはアイテムがある場所に移動し、それを取ります。第2のステップでは、TIDEEは、シーングラフと共同外部グラフメモリに基づいてアイテムのための受け入れ先を推測します。コンテナをまだ認識していない場合、TIDEEは、エリアの探索を誘導し、コンテナが見つかる可能性のある場所を示唆します。TIDEEは、以前に識別されたオブジェクトの推定3D重心をメモリに保持し、この情報をナビゲーションとオブジェクトの追跡に使用します。
各アイテムの視覚的属性は、市販のオブジェクト検出器を使用して収集されます。同時に、関係言語の特徴は、オブジェクト間の3D関係(「隣り合っている」、「支持されている」、「上にある」など)のための事前学習された言語モデルの予測をフィードすることによって生成されます。
TIDEEには、オブジェクトが持ち上げられた後に可能なアイテム配置のアイデアを予測するためのニューラルグラフモジュールが含まれています。アイテムの配置、トレーニングシナリオから学習した、コンテキストの接続を保持するメモリグラフ、および現在のシーンでのオブジェクト-関係構成をエンコードするシーングラフが相互作用してモジュールを機能させます。
TIDEEは、セマンティック障害マップと検索カテゴリを与えられた障害マップの各空間点におけるオブジェクトの存在の可能性を予測する光学的検索ネットワークを使用しています。その後、エージェントは、ターゲットが含まれると思われる最も可能性が高い領域を調べます。
TIDEEには2つの欠点がありますが、どちらも将来の研究の明白な方向性です。それはアイテムの開いた状態と閉じた状態を考慮していないこと、また混沌とした再構築プロセスの一部としてそれらの3Dの姿勢を含んでいないことです。
部屋に物を乱雑に散らばらせることから生じる混沌は、現実の混沌を代表している可能性があります。
TIDEEは、以前に同じ部屋を見たことがなく、ピクセルと生の深度入力のみを使用して作業を完了し、異なるトレーニングホームのコレクションから学習した先行知識のみを使用します。結果の部屋のレイアウト変更の人間による評価によれば、TIDEEは、一つ以上の常識的な先行知識を除外したモデルの劣化変種よりも優れたパフォーマンスを発揮します。単純化されたモデルバージョンは、比較可能な部屋の再配置ベンチマークで最も優れた解決策を大幅に上回り、エージェントが再配置前の目的の状態を観察することを可能にします。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「AIの画像をどのように保存すべきか?Googleの研究者がスコアベースの生成モデルを使用した画像圧縮方法を提案」
- 研究者たちは、ビデオ記録を使用して、鳥の姿勢を3Dで追跡するための新しいマーカーレスAIメソッドを開発しました
- スタンフォード大学の研究者が、言語モデルの事前トレーニングのための拡張可能な二次最適化手法であるSophiaを紹介しました
- このPythonライブラリ「Imitation」は、PyTorchでの模倣と報酬学習アルゴリズムのオープンソース実装を提供します
- 「Ph.D.学生や研究者向けの無料オンラインコース10選」
- サムスンのAI研究者が、ニューラルヘアカットを紹介しましたこれは、ビデオや画像から人間の髪の毛のストランドベースのジオメトリを再構築するための新しいAI手法です
- 「サリー大学の研究者が開発した新しいソフトウェアは、AIが実際にどれだけの情報を知っているかを検証することができます」