KITE(キーポイントを視覚的な基盤と正確なアクション推論の表現として使用する意味操作のためのAIフレームワーク)に会いましょう
Let's meet KITE (an AI framework for meaning manipulation using visual foundations and precise action inference representation through keypoints).
人工知能の進歩に伴い、AI技術はロボットと組み合わせられるようになっています。コンピュータビジョンや自然言語処理からエッジコンピューティングまで、AIはロボットと統合され、意味のある効果的な解決策の開発に役立っています。AIロボットは現実世界で行動する機械です。人間とロボットの間のコミュニケーション手段として言語の可能性を考慮することは重要です。しかし、現代のロボットが自由形式の言語入力を効率的に処理することを妨げる2つの主要な問題があります。1つ目の課題は、ロボットに与えられた指示に基づいてどのように操作する必要があるかを理解することです。もう1つは、テディアニマルの耳ではなく足や石鹸のディスペンサーではなく側面などのオブジェクトを持ち上げる場合に注意が必要なピックアンドプレースのタスクです。
ロボットは入力された指示から場面とオブジェクトの意味を抽出し、意味のある操作を行うために正確な低レベルのアクションを計画する必要があります。これらの課題に対処するため、スタンフォード大学の研究者はKITE(Keypoints + Instructions to Execution)という2段階のフレームワークを紹介しています。KITEでは場面の意味とオブジェクトの意味の両方が考慮されています。オブジェクトの意味はオブジェクト内のさまざまな部分を正確に特定することを含み、場面の意味は視覚的な場面内のさまざまなオブジェクトを識別することを含みます。
KITEの第一フェーズでは、2Dのキーポイントを使用して入力された指示を視覚的なコンテキストに結び付けます。この手順により、オブジェクト中心のバイアスが非常に正確に提供され、ロボットはコマンドを場面内のキーポイントにマッピングすることでアイテムと関連する特徴を正確に理解します。KITEの第二ステップでは、RGB-Dシーンの観察に基づいて学習されたキーポイント条件付きのスキルを実行します。ロボットはこれらのパラメータ化されたスキルを使用して指示を実行します。キーポイントとパラメータ化されたスキルは、シーンとオブジェクトの違いに対して細かい操作と汎化性を提供するために連携します。
評価では、チームはKITEのパフォーマンスを3つの実際の環境で評価しました:高精度なコーヒー作り、意味的な掴み取り、長期的な6DoFテーブルトップ操作です。KITEは、コーヒーの準備タスクを71%の成功率で、意味的な掴み取りを70%の成功率で、テーブルトップ操作シナリオでの指示に従うことを75%の成功率で完了しました。KITEは、事前学習されたビジュアル言語モデルではなくキーポイントベースのグラウンディングを使用するフレームワークよりも優れたパフォーマンスを発揮しました。スキルの使用に対してエンドツーエンドのビジュオモーターコントロールを強調するフレームワークよりも優れたパフォーマンスを発揮しました。
訓練中に同じまたはより少ないデモンストレーションを行っていたにもかかわらず、KITEはこれらの結果を達成し、その効果と効率性を示しました。KITEはCLIPortスタイルの技術を使用して画像と言語フレーズをサリエンシーヒートマップにマッピングし、キーポイントを生成します。熟練したアーキテクチャは、キーポイントで注釈付けられたマルチビューポイントクラウドを入力として受け入れるようにPointNet++を変更して、スキルのウェイポイントを出力します。2Dのキーポイントは視覚的な特徴に正確に注意を向けることを可能にし、3Dのポイントクラウドは計画のために必要な6DoFのコンテキストを提供します。
結論として、KITEフレームワークは、操作の文脈で自然言語の命令を解釈して追従することを可能にするという長年の課題に対する有望な解決策を提供します。キーポイントと指示のグラウンディングの力を活用することで、細かい意味の操作を高精度かつ汎化性を持って実現しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ファイバーオプティックスマートパンツは、動きを監視する低コストな方法を提供します
- StorybirdはAIの力を借りて、誰でもわずか数秒でビジュアルストーリーを作成することができます
- OpenAIは、ChatGPTで「Bingで閲覧する」機能を無効化しました何が起こったのでしょうか?
- このAI論文は、DreamDiffusionという「脳のEEG信号から直接高品質の画像を生成するための思考イメージモデル」を紹介しています
- Amazon SageMakerを使用してSaaSプラットフォームを統合し、MLパワードアプリケーションを実現します
- MetaのTwitterライバルアプリ「Threads」に1000万人が登録
- コンピュータモデルが猫の嗅覚を説明します