Google Researchが、凍結された大規模言語モデル(LLM)を用いたマルチモーダル生成のための自己符号化器(SPAE)を紹介します

Google Researchがマルチモーダル生成のための自己符号化器(SPAE)を紹介します

大規模言語モデル(LLM)は、自然言語処理と自然言語理解の非凡な能力により、急速に大きな人気を博してきました。人間とコンピューターの相互作用の方法を革新したこの最近の人工知能の分野の発展により、OpenAIによって開発された最近のモデルであるChatGPTは、GPTのトランスフォーマーアーキテクチャに基づいており、現実的な会話をするための人間の模倣として有名であり、質問応答やコンテンツ生成からコード補完、機械翻訳、テキスト要約まで、あらゆることができます。

LLMは、語彙的な埋め込みを通じて世界についての深い概念的な知識をキャプチャすることに優れています。しかし、研究者たちは、適切な視覚表現が入力された場合に凍結されたLLMが視覚的なモダリティタスクを完了できるようにするための努力を続けています。研究者たちは、画像を凍結されたLLMのトークン空間にマッピングするベクトル量子化器の使用を提案しており、これにより、LLMが理解できる言語に画像を変換し、画像テキストのペアでトレーニングする必要なく、LLMの生成能力を利用して条件付けられた画像の理解と生成のタスクを実行することが可能になります。

このクロスモーダルタスクを対処し、促進するために、Google Researchとカーネギーメロン大学の研究者チームは、Semantic Pyramid AutoEncoder(SPAE)を紹介しました。SPAEは、凍結された大規模言語モデルを使用したマルチモーダル生成のためのオートエンコーダであり、信号再構築のために詳細を保持しながら、豊かな意味を持つ語彙的な単語シーケンスを生成します。SPAEでは、オートエンコーダアーキテクチャを階層ピラミッド構造と組み合わせており、以前のアプローチとは対照的に、SPAEは画像を解釈可能な離散潜在空間、つまり単語にエンコードします。

SPAEトークンのピラミッド状の表現には、複数のスケールがあり、ピラミッドの下層では画像再構築のための詳細な表現を優先し、ピラミッドの上層には意味的に中心的な概念が含まれます。このシステムは、異なるタスクに対応するためにトークンの長さを動的に調整することができ、知識を必要とするタスクではより少ないトークンを使用し、生成を必要とするジョブではより多くのトークンを使用します。このモデルは、言語モデルを通じて逆伝播する必要なく、独立してトレーニングされました。

SPAEの効果を評価するために、研究チームは、画像理解のタスク、画像分類、画像キャプショニング、ビジュアルクエスチョンアンサリングなどの実験を行いました。結果は、LLMが視覚的なモダリティをどれだけうまく処理できるか、コンテンツ生成、デザイン支援、インタラクティブストーリーテリングなどの優れたアプリケーションを示しています。研究者たちはまた、インコンテキストノイズリングの方法を使用して、LLMの画像生成能力を説明しました。

チームは、貢献を次のようにまとめています:

  1. この研究では、言語トークンだけでトレーニングされた凍結言語モデルを使用して、インコンテキスト学習を使用した直接的な視覚コンテンツの生成の素晴らしい方法を提供します。
  1. Semantic Pyramid AutoEncoder(SPAE)は、意味的な概念と細かい詳細の解釈可能な表現を生成するために提案されました。トークナイザが生成する多言語の言語トークンは、カスタマイズ可能な長さを持っており、視覚情報の微妙なニュアンスをキャプチャするためにより柔軟性と適応性を持っています。
  1. 進行的なプロンプティング方法も導入されており、言語と視覚モダリティのシームレスな統合を可能にし、品質と精度の向上をもたらす包括的で一貫したクロスモーダルシーケンスの生成を実現しています。
  1. この手法は、同一のインコンテキスト条件下での最先端のフューショット画像分類の精度を絶対的な差で25%上回っています。

総括すると、SPAEは言語モデルと視覚理解のギャップを埋める重要な突破口です。LLMのクロスモーダルタスクの処理能力の驚異的なポテンシャルを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「大規模言語モデルをより効率的に最適化できるのか?LLMの効率性に関するアルゴリズムの進化についての包括的な調査をご覧ください」

より効率的に大規模言語モデルを最適化できるのか? マイクロソフト、南カリフォルニア大学、オハイオ州立大学など、複数の組...

AI研究

この脳AIの研究では、安定した拡散を用いて脳波から画像を再現します

人間の視覚システムと似たように、世界を見て認識する人工システムを構築することは、コンピュータビジョンの重要な目標です...

人工知能

「AI倫理ツールキットが機能する理由を探る」

AIシステムの重要な影響を持つアプリケーションでの使用が増えるにつれて、専門家たちはこれらのシステムを設計する際により...

AI研究

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

“`html 最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それ...

人工知能

AgentGPT ブラウザ内の自律型AIエージェント

あなたのAIエージェントに名前と目標を与え、割り当てられた目的を達成するのを見てください

AIニュース

「トップ40以上の創発的AIツール(2023年12月)」

ChatGPT – GPT-4 GPT-4は、以前のモデルよりもより創造的で正確かつ安全なOpenAIの最新のLLMです。また、画像、PDF、CSVなど...