KITE(キーポイントを視覚的な基盤と正確なアクション推論の表現として使用する意味操作のためのAIフレームワーク)に会いましょう

Let's meet KITE (an AI framework for meaning manipulation using visual foundations and precise action inference representation through keypoints).

人工知能の進歩に伴い、AI技術はロボットと組み合わせられるようになっています。コンピュータビジョンや自然言語処理からエッジコンピューティングまで、AIはロボットと統合され、意味のある効果的な解決策の開発に役立っています。AIロボットは現実世界で行動する機械です。人間とロボットの間のコミュニケーション手段として言語の可能性を考慮することは重要です。しかし、現代のロボットが自由形式の言語入力を効率的に処理することを妨げる2つの主要な問題があります。1つ目の課題は、ロボットに与えられた指示に基づいてどのように操作する必要があるかを理解することです。もう1つは、テディアニマルの耳ではなく足や石鹸のディスペンサーではなく側面などのオブジェクトを持ち上げる場合に注意が必要なピックアンドプレースのタスクです。

ロボットは入力された指示から場面とオブジェクトの意味を抽出し、意味のある操作を行うために正確な低レベルのアクションを計画する必要があります。これらの課題に対処するため、スタンフォード大学の研究者はKITE(Keypoints + Instructions to Execution)という2段階のフレームワークを紹介しています。KITEでは場面の意味とオブジェクトの意味の両方が考慮されています。オブジェクトの意味はオブジェクト内のさまざまな部分を正確に特定することを含み、場面の意味は視覚的な場面内のさまざまなオブジェクトを識別することを含みます。

KITEの第一フェーズでは、2Dのキーポイントを使用して入力された指示を視覚的なコンテキストに結び付けます。この手順により、オブジェクト中心のバイアスが非常に正確に提供され、ロボットはコマンドを場面内のキーポイントにマッピングすることでアイテムと関連する特徴を正確に理解します。KITEの第二ステップでは、RGB-Dシーンの観察に基づいて学習されたキーポイント条件付きのスキルを実行します。ロボットはこれらのパラメータ化されたスキルを使用して指示を実行します。キーポイントとパラメータ化されたスキルは、シーンとオブジェクトの違いに対して細かい操作と汎化性を提供するために連携します。

評価では、チームはKITEのパフォーマンスを3つの実際の環境で評価しました:高精度なコーヒー作り、意味的な掴み取り、長期的な6DoFテーブルトップ操作です。KITEは、コーヒーの準備タスクを71%の成功率で、意味的な掴み取りを70%の成功率で、テーブルトップ操作シナリオでの指示に従うことを75%の成功率で完了しました。KITEは、事前学習されたビジュアル言語モデルではなくキーポイントベースのグラウンディングを使用するフレームワークよりも優れたパフォーマンスを発揮しました。スキルの使用に対してエンドツーエンドのビジュオモーターコントロールを強調するフレームワークよりも優れたパフォーマンスを発揮しました。

訓練中に同じまたはより少ないデモンストレーションを行っていたにもかかわらず、KITEはこれらの結果を達成し、その効果と効率性を示しました。KITEはCLIPortスタイルの技術を使用して画像と言語フレーズをサリエンシーヒートマップにマッピングし、キーポイントを生成します。熟練したアーキテクチャは、キーポイントで注釈付けられたマルチビューポイントクラウドを入力として受け入れるようにPointNet++を変更して、スキルのウェイポイントを出力します。2Dのキーポイントは視覚的な特徴に正確に注意を向けることを可能にし、3Dのポイントクラウドは計画のために必要な6DoFのコンテキストを提供します。

結論として、KITEフレームワークは、操作の文脈で自然言語の命令を解釈して追従することを可能にするという長年の課題に対する有望な解決策を提供します。キーポイントと指示のグラウンディングの力を活用することで、細かい意味の操作を高精度かつ汎化性を持って実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

費用効率の高いGPT NeoXおよびPythiaモデルの訓練における節約と正確性:AWS Trainiumの活用

大規模言語モデル(またはLLMs)は、日々の会話のトピックとなっていますその迅速な採用は、1億人のユーザーに到達するまでに...

機械学習

「インドにおけるAI規制のためのPMモディのビジョン:B20サミット2023」

2023年、B20サミットインドがデリーで終了するにつれ、ナレンドラ・モディ首相の言葉の響きは続きました。ビジネスリーダーた...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

AI研究

このAI研究によって、写真-SLAMが発表されました:ポータブルデバイスでのリアルタイム写真写実的マッピングを向上させる

コンピュータビジョンとロボット工学において、カメラによる同時位置推定と地図作成(SLAM)は、自律システムが自ら環境をナ...

AI研究

Google DeepMindの研究者がDiLoCoを導入:効果的かつ強靭な大規模言語モデルのトレーニングのための新しい分散型、低通信マシンラーニングアルゴリズム

現実世界のアプリケーションにおける言語モデルのソアリング能力は、標準的なバックプロパゲーションのような従来の方法を使...

AIニュース

このAI論文では、エッジコンピュータ上でも高品質な再構築とリアルタイム性能を実現するためのNeRFベースのマッピング手法が提案されています

この論文では、研究者たちはH2-Mappingと呼ばれるNeRFベースのマッピング手法を紹介しました。この手法は、ロボティクス、AR ...