Google Researchが、凍結された大規模言語モデル(LLM)を用いたマルチモーダル生成のための自己符号化器(SPAE)を紹介します

Google Researchがマルチモーダル生成のための自己符号化器(SPAE)を紹介します

大規模言語モデル(LLM)は、自然言語処理と自然言語理解の非凡な能力により、急速に大きな人気を博してきました。人間とコンピューターの相互作用の方法を革新したこの最近の人工知能の分野の発展により、OpenAIによって開発された最近のモデルであるChatGPTは、GPTのトランスフォーマーアーキテクチャに基づいており、現実的な会話をするための人間の模倣として有名であり、質問応答やコンテンツ生成からコード補完、機械翻訳、テキスト要約まで、あらゆることができます。

LLMは、語彙的な埋め込みを通じて世界についての深い概念的な知識をキャプチャすることに優れています。しかし、研究者たちは、適切な視覚表現が入力された場合に凍結されたLLMが視覚的なモダリティタスクを完了できるようにするための努力を続けています。研究者たちは、画像を凍結されたLLMのトークン空間にマッピングするベクトル量子化器の使用を提案しており、これにより、LLMが理解できる言語に画像を変換し、画像テキストのペアでトレーニングする必要なく、LLMの生成能力を利用して条件付けられた画像の理解と生成のタスクを実行することが可能になります。

このクロスモーダルタスクを対処し、促進するために、Google Researchとカーネギーメロン大学の研究者チームは、Semantic Pyramid AutoEncoder(SPAE)を紹介しました。SPAEは、凍結された大規模言語モデルを使用したマルチモーダル生成のためのオートエンコーダであり、信号再構築のために詳細を保持しながら、豊かな意味を持つ語彙的な単語シーケンスを生成します。SPAEでは、オートエンコーダアーキテクチャを階層ピラミッド構造と組み合わせており、以前のアプローチとは対照的に、SPAEは画像を解釈可能な離散潜在空間、つまり単語にエンコードします。

SPAEトークンのピラミッド状の表現には、複数のスケールがあり、ピラミッドの下層では画像再構築のための詳細な表現を優先し、ピラミッドの上層には意味的に中心的な概念が含まれます。このシステムは、異なるタスクに対応するためにトークンの長さを動的に調整することができ、知識を必要とするタスクではより少ないトークンを使用し、生成を必要とするジョブではより多くのトークンを使用します。このモデルは、言語モデルを通じて逆伝播する必要なく、独立してトレーニングされました。

SPAEの効果を評価するために、研究チームは、画像理解のタスク、画像分類、画像キャプショニング、ビジュアルクエスチョンアンサリングなどの実験を行いました。結果は、LLMが視覚的なモダリティをどれだけうまく処理できるか、コンテンツ生成、デザイン支援、インタラクティブストーリーテリングなどの優れたアプリケーションを示しています。研究者たちはまた、インコンテキストノイズリングの方法を使用して、LLMの画像生成能力を説明しました。

チームは、貢献を次のようにまとめています:

  1. この研究では、言語トークンだけでトレーニングされた凍結言語モデルを使用して、インコンテキスト学習を使用した直接的な視覚コンテンツの生成の素晴らしい方法を提供します。
  1. Semantic Pyramid AutoEncoder(SPAE)は、意味的な概念と細かい詳細の解釈可能な表現を生成するために提案されました。トークナイザが生成する多言語の言語トークンは、カスタマイズ可能な長さを持っており、視覚情報の微妙なニュアンスをキャプチャするためにより柔軟性と適応性を持っています。
  1. 進行的なプロンプティング方法も導入されており、言語と視覚モダリティのシームレスな統合を可能にし、品質と精度の向上をもたらす包括的で一貫したクロスモーダルシーケンスの生成を実現しています。
  1. この手法は、同一のインコンテキスト条件下での最先端のフューショット画像分類の精度を絶対的な差で25%上回っています。

総括すると、SPAEは言語モデルと視覚理解のギャップを埋める重要な突破口です。LLMのクロスモーダルタスクの処理能力の驚異的なポテンシャルを示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

NVIDIA CEO:クリエイターは生成的AIによって「スーパーチャージ」されるでしょう

ジェンスン・ファウンダー兼CEOは、フランスのリビエラ地方で開催されたカンヌライオンズフェスティバルで、ジェンスン・ファ...

AI研究

スタンフォードの研究者が提案する「EVAPORATE:言語モデルの推論コストを110倍削減する新しいAIアプローチ」

近年、大型言語モデルは常に注目を浴びています。彼らの非凡な能力と様々な分野での応用により、新しい研究論文やLLMの新しい...

AI研究

このAI研究は、AstroLLaMAを紹介しますこれは、ArXivからの30万以上の天文学の要約を使用して、LLaMA-2からファインチューンされた7Bパラメーターモデルです

大規模言語モデル(LLM)の登場は、複数の重要な要素が結集したため、多くの分野から注目を集めています。これらの要素には、...

AI研究

「NYUとGoogle AIの研究者が、機械学習の先進的な演繹的推論のフロンティアを探る」

多くの割引ルールの使用とサブプルーフの構築により、証明の複雑さは医療診断や定理の証明などの多くの論理推論の課題におい...

機械学習

Contextual AIは、VQAv2においてFlamingoを9%上回る(56->65%)ビジョン補完言語モデルのためのAIフレームワークLENSを導入しました

大規模言語モデル(LLM)は、最近の数年間で自然言語理解を変革し、ゼロショットおよびフューショットの環境での特に意味理解...

データサイエンス

「データウェアハウジング入門ガイド」

データウェアハウスの主要なコンポーネント、アーキテクチャ、ベストプラクティス、課題、利点を探求してください