このAI論文では、「ビデオ言語計画(VLP)」という新しい人工知能アプローチを提案していますこのアプローチは、ビジョン言語モデルとテキストからビデオへのダイナミクスを組み合わせたツリーサーチ手法で構成されています

このAI論文では、「ビデオ言語計画(VLP)」に基づく新たな人工知能アプローチを提案しています

人工知能の進化により、生成モデルは急速に成長しています。物理環境と知的に相互作用するアイデアは、低レベルの基礎的なダイナミクスと高レベルの意味的な抽象化の2つの異なるレベルでの計画の重要性を強調しています。これらの2つのレイヤーは、実際の世界での活動を適切に制御するためには、ロボットシステムにとって不可欠です。

計画問題をこれらの2つのレイヤーに分割する概念は、ロボット工学では以前から認識されています。その結果、動作とタスクの計画を組み合わせ、複雑な操作作業の制御ルールを特定することを含む多くの戦略が開発されてきました。これらの方法は、作業の目標と現実の環境のダイナミクスを考慮に入れた計画を生成することを目的としています。LLMについて話すと、これらのモデルは記号的なジョブの説明を使用して高レベルの計画を作成することができますが、そのような計画を実装することには問題があります。形状、物理、制約など、タスクの具体的な部分に関しては、推論することができません。

最近の研究では、Google Deepmind、MIT、およびUC Berkeleyの研究者チームが、テキストからビデオやビジョン言語モデル(VLM)を統合することでこれらの欠点を克服する提案を行っています。両モデルの利点を組み合わせたこの統合は、Video Language Planning(VLP)として紹介されています。VLPは、長期的で複雑な活動のための視覚的な計画を容易にすることを目的として導入されました。VLPは、インターネットデータ上で広範な事前トレーニングを受けた大規模な生成モデルの最近の進展を活用しています。VLPの主な目標は、言語と視覚のドメインの両方で理解と長いアクションシーケンスを必要とするジョブを計画することを容易にすることです。これらのジョブには、単純なオブジェクトの配置から複雑なロボットシステムの操作まで、さまざまなものが含まれます。

VLPの基礎は、2つの主要部分からなるツリーサーチプロセスです。

  1. ビジョン言語モデル:これらのモデルは値関数とポリシーの両方の役割を果たし、計画の作成と評価をサポートします。タスクの説明と利用可能な視覚情報を理解した後、作業を完了するための次のアクションを提案することができます。
  1. テキストからビデオへのモデル:これらのモデルはダイナミクスモデルとしての役割を果たし、特定の意思決定がどのような影響を与えるかを予測する能力を持っています。これらの予測は、ビジョン言語モデルが示唆する行動から導かれる可能性のある結果を予測します。

VLPでは、長期的なタスクの指示と現在の視覚的観察が主な入力として使用されます。VLPの結果は、言語と視覚の特徴を組み合わせて最終目標を達成するための段階的な指示を提供する完全かつ詳細なビデオ計画です。これにより、書かれた作業の説明と視覚的理解とのギャップを埋めるのに役立ちます。

VLPは、バイアームの器用な操作や複数オブジェクトの再配置など、さまざまな活動を行うことができます。この柔軟性は、アプローチの幅広い可能性を示しています。実際のロボットシステムは、生成されたビデオの設計図を実際に実装することができます。目標指向のルールは、仮想計画を実際のロボットの動作に変換するのに役立ちます。これらの規則により、ロボットは中間フレームごとのビデオ計画を行動のガイドとして使用しながら、ステップバイステップでタスクを実行することができます。

VLPを使用した実験を以前の手法と比較すると、長期的なタスクの成功率の重要な向上が見られました。これらの調査は、3つの異なるハードウェアプラットフォームを使用した実際のロボットおよびシミュレーション環境で実施されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「5つ星アプリを構築する:AIと自動化を利用したモバイルテストの向上」

ソフトウェア開発チームは、高品質なモバイルアプリ体験を提供するために、強力で低コストのツールが必要ですAIと自動化は解...

データサイエンス

深層学習を用いた強力なレコメンデーションシステムの構築

顧客に適切なタイミングで適切な商品を提案することは、あらゆる業界において共通の課題です例えば、銀行業界では銀行員は常...

データサイエンス

「明日のAIによるサイバーセキュリティの風景に備える」

「AIの能力は二律背反の剣であり、既存のセキュリティ製品の効果を向上させる強力なツールである一方で、より洗練された脅威...

機械学習

最初のマシンアンラーニングチャレンジを発表します

Googleの研究科学者であるFabian PedregosaとEleni Triantafillouによって投稿されました。 深層学習は最近、現実的な画像生...

AIニュース

「セグミンドの生成AIによるエンパワーリングなロゴデザイン」

イントロダクション ブランドの世界では、ロゴがブランドの本質を象徴しています。従来、ロゴの作成にはデザイナーの才能と修...

機械学習

バーゼル大学病院が、「TotalSegmentator」を発表:体のCT画像の主要な解剖構造を自動的にセグメント化するための深層学習セグメンテーションモデル

過去数年間、実施されるCTスキャンの数と利用可能なデータ処理能力は増加してきました。ディープラーニングの進展により、画...