Google Researchが、凍結された大規模言語モデル(LLM)を用いたマルチモーダル生成のための自己符号化器(SPAE)を紹介します

Google Researchがマルチモーダル生成のための自己符号化器(SPAE)を紹介します

大規模言語モデル(LLM)は、自然言語処理と自然言語理解の非凡な能力により、急速に大きな人気を博してきました。人間とコンピューターの相互作用の方法を革新したこの最近の人工知能の分野の発展により、OpenAIによって開発された最近のモデルであるChatGPTは、GPTのトランスフォーマーアーキテクチャに基づいており、現実的な会話をするための人間の模倣として有名であり、質問応答やコンテンツ生成からコード補完、機械翻訳、テキスト要約まで、あらゆることができます。

LLMは、語彙的な埋め込みを通じて世界についての深い概念的な知識をキャプチャすることに優れています。しかし、研究者たちは、適切な視覚表現が入力された場合に凍結されたLLMが視覚的なモダリティタスクを完了できるようにするための努力を続けています。研究者たちは、画像を凍結されたLLMのトークン空間にマッピングするベクトル量子化器の使用を提案しており、これにより、LLMが理解できる言語に画像を変換し、画像テキストのペアでトレーニングする必要なく、LLMの生成能力を利用して条件付けられた画像の理解と生成のタスクを実行することが可能になります。

このクロスモーダルタスクを対処し、促進するために、Google Researchとカーネギーメロン大学の研究者チームは、Semantic Pyramid AutoEncoder(SPAE)を紹介しました。SPAEは、凍結された大規模言語モデルを使用したマルチモーダル生成のためのオートエンコーダであり、信号再構築のために詳細を保持しながら、豊かな意味を持つ語彙的な単語シーケンスを生成します。SPAEでは、オートエンコーダアーキテクチャを階層ピラミッド構造と組み合わせており、以前のアプローチとは対照的に、SPAEは画像を解釈可能な離散潜在空間、つまり単語にエンコードします。

SPAEトークンのピラミッド状の表現には、複数のスケールがあり、ピラミッドの下層では画像再構築のための詳細な表現を優先し、ピラミッドの上層には意味的に中心的な概念が含まれます。このシステムは、異なるタスクに対応するためにトークンの長さを動的に調整することができ、知識を必要とするタスクではより少ないトークンを使用し、生成を必要とするジョブではより多くのトークンを使用します。このモデルは、言語モデルを通じて逆伝播する必要なく、独立してトレーニングされました。

SPAEの効果を評価するために、研究チームは、画像理解のタスク、画像分類、画像キャプショニング、ビジュアルクエスチョンアンサリングなどの実験を行いました。結果は、LLMが視覚的なモダリティをどれだけうまく処理できるか、コンテンツ生成、デザイン支援、インタラクティブストーリーテリングなどの優れたアプリケーションを示しています。研究者たちはまた、インコンテキストノイズリングの方法を使用して、LLMの画像生成能力を説明しました。

チームは、貢献を次のようにまとめています:

  1. この研究では、言語トークンだけでトレーニングされた凍結言語モデルを使用して、インコンテキスト学習を使用した直接的な視覚コンテンツの生成の素晴らしい方法を提供します。
  1. Semantic Pyramid AutoEncoder(SPAE)は、意味的な概念と細かい詳細の解釈可能な表現を生成するために提案されました。トークナイザが生成する多言語の言語トークンは、カスタマイズ可能な長さを持っており、視覚情報の微妙なニュアンスをキャプチャするためにより柔軟性と適応性を持っています。
  1. 進行的なプロンプティング方法も導入されており、言語と視覚モダリティのシームレスな統合を可能にし、品質と精度の向上をもたらす包括的で一貫したクロスモーダルシーケンスの生成を実現しています。
  1. この手法は、同一のインコンテキスト条件下での最先端のフューショット画像分類の精度を絶対的な差で25%上回っています。

総括すると、SPAEは言語モデルと視覚理解のギャップを埋める重要な突破口です。LLMのクロスモーダルタスクの処理能力の驚異的なポテンシャルを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

サリー大学の研究者が新しい人工知能(AI)モデルを開発しましたこのモデルは、通信ネットワークが最大76%ものネットワークを節約できる可能性があります

オープン・ラジオ・アクセス・ネットワーク(O-RAN)は、分離されたラジオ・アクセス・ネットワーク(RAN)に知能を注入し、...

人工知能

AI生成コンテンツ:クリエイターにとってこれは何を意味するのか?

「ジェネレーティブAIはコンテンツクリエイターにどのような影響を与えるのか?AIによる生成コンテンツの限界、課題、および...

AI研究

メタAI研究者が生産準備完了の強化学習AIエージェントライブラリ「Pearl」をオープンソース化

強化学習(RL)は、エージェントが適切なアクションを取り、報酬を最大化するために学習する機械学習のサブフィールドです。...

AI研究

研究者たちは、アルゴリズムに「味覚」を教えることに成功しました

科学者たちは、アルゴリズムによって個々の人のワインの好みをより正確に予測する方法を教えました

機械学習

WAYVE社がGAIA-1を発表:ビデオ、テキスト、アクション入力を活用して現実的な運転ビデオを作成する自律性のための新しい生成AIモデル

自動車産業は長年、自律走行を目指し、交通を革命化し、道路安全性を高めることを認識してきました。しかし、複雑な現実のシ...

データサイエンス

「Google Cloud Platformの探求:サービスと能力の包括的な概要」

この記事では、GCPが提供するさまざまなサービスについて詳しく説明し、クラウドコンピューティングの景色でのその重要性を強...