PaLM-Eをご紹介します：新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します

PaLM-Eは、5620億パラメータの多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します

大容量の言語モデル（LLM）は、会話、ステップバイステップの推論、数学の問題解決、コードの作成など、さまざまな分野で強力な推論能力を示しています。LLMを膨大なテキストデータでトレーニングすることで、物理的な環境に関連する表現が生成されますが、それらの表現を現実世界の視覚的および物理的なセンサーモダリティに接続することは、コンピュータビジョンとロボティクスの現実世界の問題の幅広い範囲の解決に重要です。

従来の研究では、LLMの出力を学習されたロボットポリシーや利用可能な機能関数と統合して意思決定を行う方法に制約がありました。従来の研究の制限は、LLMがテキスト入力のみを受け取ることであり、シーンの幾何学的な構成が重要な多くのタスクには不十分です。さらに、彼らの研究は、ビジュアルクエスチョンアンサリング（VQA）などの一般的なビジョン言語タスクでトレーニングされた最先端のビジュアル言語モデルが、直接的にロボティックな推論問題を解決することができないことを示しています。この研究では、GoogleとTU Berlinの研究者は、具体的な世界における連続的な入力を直接的に取り入れ、言語モデルが実際の世界での連続的な意思決定により正確な結論を導くことができるようにする具体的な言語モデルを提案しています。彼らはPaLM-Eを開発しました。これはシングルビッグな具体的な多モーダルモデルであり、異なる観察モダリティにおける数多くの具体的な推論問題を解決し、正の転送を示します。

PaLM-E LLMは、学習者の第一言語（L1）の知識やスキルを第二言語（L2）の学習に適用することで、L2のより迅速かつ効果的な習得をもたらす正の転送を実現します。たとえば、学習者のL1がL2と類似の文法構造を持つ場合、L1の文法の知識を使用してL2の文法のルールをより迅速に理解し適用することができるかもしれません。同様に、学習者のL1とL2が同じ綴りと意味を持つ語（両言語で同じ綴りと意味を持つ語）を共有している場合、これらの語を認識し記憶することでL2の語彙を迅速に拡大することができるかもしれません。正の転送は、学習者のL1の知識やスキルがL2の習得能力に干渉する場合に生じる負の転送とは対照的です。たとえば、学習者のL1の文法構造がL2のそれと大きく異なる場合、彼らはそれらを理解していてもL2の文法のルールを正しく適用することに苦労するかもしれません。

言語トークンがTransformerベースのLLMのセルフアテンションレイヤーによって処理されるのと同様に、写真や状態推定などの入力も同じ潜在的な埋め込みに言語トークンとして組み込まれます。彼らは、連続的な入力をエンコーダを介して事前にトレーニングされたLLMに注入することから始めます。これらのエンコーダは、自然言語で順序判断を生成するためにエンドツーエンドでトレーニングを受けており、具体的な言語モデルが低レベルのルールを構成したり、具体的なクエリに応答したりすることで理解することができます。さまざまな入力表現（視覚入力の標準的なエンコーディングとオブジェクト中心のViTエンコーディングなど）を対比し、エンコーダのトレーニング中に言語モデルを凍結または微調整すること、および複数のタスクでの共同トレーニングが転送を可能にするかどうかを検証することにより、このアプローチをさまざまな文脈で評価します。

彼らは、3つのロボット操作ドメイン（そのうち2つは実世界でクローズドループ）と、OK-VQAベンチマークなどの一般的なビジョン言語タスク、および言語タスクでこの手法の幅広さを決定するために、テクニックをテストします。彼らの調査結果によれば、マルチタスクトレーニングは単一のタスクのモデルをトレーニングする場合よりもパフォーマンスを向上させます。彼らは、タスク間のこの転送が、ロボティクスタスクにおけるデータの効率性を大幅に向上させること、新しいアイテムの組み合わせや未知のオブジェクトへのワンショットまたはゼロショットの一般化を展示し、少数のトレーニングサンプルからの学習パフォーマンスを大幅に向上させることを示しています。彼らの知識によれば、540BのPaLM LLMと22Bのビジョントランスフォーマー（ViT）を組み合わせて、これまでに公開された最大のビジョン言語モデルであるPaLM-Eを562Bのパラメータにスケーリングしています。

タスク固有の微調整を使用せずに、PaLM-E-562BはOK-VQAベンチマークで最先端のパフォーマンスを実現しています。彼らはまた、PaLM-E-562Bがシングルイメージの例のみでトレーニングされているにもかかわらず、ゼロショットのマルチモーダルなCoT（Chain of Thought）の少数ショットの促進、OCRフリーの算術推論、およびマルチイメージ推論など、幅広いスキルを示すことを発見しています。彼らの知識によれば、ゼロショットのCoTは、タスク固有のプログラムを使用した多モーダルデータのエンドツーエンドモデルでまだ示されていないとのことです。

彼らの主な貢献をまとめると、彼らは（1）具体的なデータをトレーニングに組み込むことで、多様なモダリティを持つ大規模言語モデルをトレーニングし、一般化された、転移学習された、多様な具現化の意思決定エージェントを作成する方法を提案し、示しています。彼らは、最先端の汎用的なビジュアル言語モデルが、ボックス外の具現化の問題を効果的に解決しないことを示していますが（ゼロショット）、有能な具現化の理解者である一般的なビジュアル言語モデルをトレーニングすることが可能であることも示しています。このようなモデルの最適なトレーニングに関する研究を行っています。

彼らは（3）エンティティラベリングのマルチモーダルトークンやニューラルシーン表現など、新しいアーキテクチャの概念を提供しています。さらに、彼らは（4）PaLM-Eが具現化の理解者であるだけでなく、数量的に優れたビジョンと言語の一般的なモデリングも行えることを示し、（5）言語モデルのサイズを拡大することで、多様なモダリティの微調整がより壊滅的な忘却を伴わずに可能であることを示しています。さまざまなデモは、彼らのプロジェクトのウェブサイトで見ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI Paper SummaryAI ShortsApplicationsArtificial IntelligenceDeep learningEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

PaLM-Eをご紹介します：新たな5620億パラメータの具現化された多モーダル言語モデルで、ロボットの操作計画やビジュアルQAなどのタスクを実行します

Was this article helpful?

「Deep Diving Into Llama 2 メタAIの新しいオープンソース基盤モデル」

「スタンフォード大学の新しいAI研究は、言語モデルにおける過信と不確実性の表現の役割を説明します」

機械学習

デジタルネイティブ（クラウドで生まれた人々）のデータストリーミングの現状

OpenAI GPT（ジェネラルプロダクトトランスフォーマー）：自分自身で作るChatGPTを活用した対話型AI

データを持っていますか？SMOTEとGANが合成データを作成する方法

ONNXモデル | オープンニューラルネットワークエクスチェンジ

グラフニューラルネットワークによるローマ数字の分析

検索における生成AIが120以上の新しい国と地域に拡大します