KITE(キーポイントを視覚的な基盤と正確なアクション推論の表現として使用する意味操作のためのAIフレームワーク)に会いましょう

Let's meet KITE (an AI framework for meaning manipulation using visual foundations and precise action inference representation through keypoints).

人工知能の進歩に伴い、AI技術はロボットと組み合わせられるようになっています。コンピュータビジョンや自然言語処理からエッジコンピューティングまで、AIはロボットと統合され、意味のある効果的な解決策の開発に役立っています。AIロボットは現実世界で行動する機械です。人間とロボットの間のコミュニケーション手段として言語の可能性を考慮することは重要です。しかし、現代のロボットが自由形式の言語入力を効率的に処理することを妨げる2つの主要な問題があります。1つ目の課題は、ロボットに与えられた指示に基づいてどのように操作する必要があるかを理解することです。もう1つは、テディアニマルの耳ではなく足や石鹸のディスペンサーではなく側面などのオブジェクトを持ち上げる場合に注意が必要なピックアンドプレースのタスクです。

ロボットは入力された指示から場面とオブジェクトの意味を抽出し、意味のある操作を行うために正確な低レベルのアクションを計画する必要があります。これらの課題に対処するため、スタンフォード大学の研究者はKITE(Keypoints + Instructions to Execution)という2段階のフレームワークを紹介しています。KITEでは場面の意味とオブジェクトの意味の両方が考慮されています。オブジェクトの意味はオブジェクト内のさまざまな部分を正確に特定することを含み、場面の意味は視覚的な場面内のさまざまなオブジェクトを識別することを含みます。

KITEの第一フェーズでは、2Dのキーポイントを使用して入力された指示を視覚的なコンテキストに結び付けます。この手順により、オブジェクト中心のバイアスが非常に正確に提供され、ロボットはコマンドを場面内のキーポイントにマッピングすることでアイテムと関連する特徴を正確に理解します。KITEの第二ステップでは、RGB-Dシーンの観察に基づいて学習されたキーポイント条件付きのスキルを実行します。ロボットはこれらのパラメータ化されたスキルを使用して指示を実行します。キーポイントとパラメータ化されたスキルは、シーンとオブジェクトの違いに対して細かい操作と汎化性を提供するために連携します。

評価では、チームはKITEのパフォーマンスを3つの実際の環境で評価しました:高精度なコーヒー作り、意味的な掴み取り、長期的な6DoFテーブルトップ操作です。KITEは、コーヒーの準備タスクを71%の成功率で、意味的な掴み取りを70%の成功率で、テーブルトップ操作シナリオでの指示に従うことを75%の成功率で完了しました。KITEは、事前学習されたビジュアル言語モデルではなくキーポイントベースのグラウンディングを使用するフレームワークよりも優れたパフォーマンスを発揮しました。スキルの使用に対してエンドツーエンドのビジュオモーターコントロールを強調するフレームワークよりも優れたパフォーマンスを発揮しました。

訓練中に同じまたはより少ないデモンストレーションを行っていたにもかかわらず、KITEはこれらの結果を達成し、その効果と効率性を示しました。KITEはCLIPortスタイルの技術を使用して画像と言語フレーズをサリエンシーヒートマップにマッピングし、キーポイントを生成します。熟練したアーキテクチャは、キーポイントで注釈付けられたマルチビューポイントクラウドを入力として受け入れるようにPointNet++を変更して、スキルのウェイポイントを出力します。2Dのキーポイントは視覚的な特徴に正確に注意を向けることを可能にし、3Dのポイントクラウドは計画のために必要な6DoFのコンテキストを提供します。

結論として、KITEフレームワークは、操作の文脈で自然言語の命令を解釈して追従することを可能にするという長年の課題に対する有望な解決策を提供します。キーポイントと指示のグラウンディングの力を活用することで、細かい意味の操作を高精度かつ汎化性を持って実現しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「SelFeeに会いましょう:自己フィードバック生成によって強化された反復的自己修正LLM」

最近の研究では、自然言語フィードバックが言語モデルの性能向上に効果的であることが示されています。KAISTの研究チームは、...

AI研究

AI2とワシントン大学の研究者が、LLMsの表面的な性質を明らかにし、チューニングフリーの新しい方法であるURIALを紹介した

ラージランゲージモデル(LLMs)は、人工知能(AI)やディープラーニングの分野での最近の革新です。GPT、PaLM、LLaMaなどの...

機械学習

ChatGPTのバイアスを解消するバックパック:バックパック言語モデルはトランスフォーマーの代替AI手法です

AI言語モデルは私たちの生活の中で不可欠なものになっています。情報にアクセスするために数十年間Googleを使用してきました...

データサイエンス

「機械学習が位置データ産業において革命を起こす方法」

「位置データ産業は急速に成長していますが、まだ技術的な幼年期にあります位置データに基づくほとんどの製品は技術的に比較...

機械学習

ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!

NeRF(ニューラル・ラディアンス・フィールド)は、RNNとCNNの組み合わせを使用して、形状、材質、テクスチャなどの物体の物...

機械学習

TensorFlowを使用して責任あるAIを構築する方法は?

イントロダクション 人工知能(AI)は、今週リリースされる新しいAIアプリ、機能、プラットフォームが数百あるほど、前例のな...