「CMUの研究者らが提案するGILL:LLMと画像エンコーダおよびデコーダモデルを統合するためのAIメソッド」

GILL An AI method integrating LLM, image encoder, and decoder models proposed by researchers at CMU.

OpenAIの新しいGPT 4のリリースにより、大規模言語モデルの多様性が導入されました。以前のバージョンであるGPT 3.5は、テキスト入力を受け付けるためにChatGPTが使用されていましたが、最新のGPT-4はテキストだけでなく画像も入力として受け付けます。最近、カーネギーメロン大学の研究者チームはGenerating Images with Large Language Models (GILL)という手法を提案しました。この手法は、マルチモーダル言語モデルを拡張し、ユニークな画像を生成することに焦点を当てています。

GILL手法により、画像とテキストが混在した入力を処理し、テキストを生成し、画像を取得し、新しい画像を作成することが可能となります。GILLは、異なるテキストエンコーダを使用するモデルが、凍結されたテキストのみのLLMの出力埋め込み空間から凍結された画像生成モデルの埋め込み空間への転送によってこれを実現しています。他の手法とは異なり、画像とテキストのペアリングを使用して、わずかなパラメータのファインチューニングを行うことで、マッピングを実現しています。

チームは、この手法が、凍結されたテキストの大規模言語モデルと既に訓練された画像エンコーディングおよびデコーディングモデルを組み合わせています。これにより、画像検索、ユニークな画像生成、マルチモーダル対話など、幅広いマルチモーダル機能を提供することができます。これは、モダリティの埋め込み空間をマッピングして統合することによって実現されています。GILLは、混在した画像とテキストの入力を条件付きで処理し、一貫性のある読みやすい出力を生成します。

この手法は、優れたパフォーマンスを発揮するために、LLMをテキストから画像生成モデルに接続する効果的なマッピングネットワークを提供します。このマッピングネットワークは、非表示のテキスト表現を視覚モデルの埋め込み空間に変換します。これにより、LLMの強力なテキスト表現を使用して、美学的に一貫した出力を生成します。

この手法により、モデルは指定されたデータセットから画像を取得するだけでなく、新しい画像も作成することができます。モデルは推論時に画像を生成するか取得するかを選択します。LLMの非表示表現に依存する条件付きの学習済み決定モジュールを使用して、この選択を行います。この手法は、トレーニング時に画像生成モデルを実行する必要がないため、計算効率が高いです。

この手法は、特に長くて複雑な言語を必要とするタスクにおいて、ベースラインの生成モデルよりも優れたパフォーマンスを発揮します。比較して、GILLはStable Diffusion手法よりも長い形式のテキスト(対話や議論を含む)の処理において優れた性能を発揮します。GILLは、非LLMベースの生成モデルよりも対話条件付きの画像生成において優れた性能を発揮し、マルチモーダルなコンテキストを活用して与えられたテキストにより適合する画像を生成します。従来のテキストから画像へのモデルがテキスト入力のみを処理するのに対して、GILLは任意の交互に配置された画像とテキストの入力も処理することができます。

まとめると、Generating Images with Large Language Models(GILL)は、以前のマルチモーダル言語モデルと比較して、より幅広い能力を持つ有望な手法です。コンテキストの依存性を測定するさまざまなテキストから画像へのタスクにおいて、非LLMベースの生成モデルを上回る能力を持つため、マルチモーダルタスクにおける強力な解決策となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ジャクソン・ジュエットは、より少ないコンクリートを使用する建物の設計をしたいと考えています

「博士課程の学生は、少ない材料で大規模な構造物を設計するためのアルゴリズムを磨いていますこれにより、建設業界の巨大な...

機械学習

マイクロソフトが「オルカ2」をリリース:特製のトレーニング戦略で小さな言語モデルに高度な推論を導入

LLMs(Large Language Models)は、人間の言語に似た言語を理解し生成するために膨大なテキストデータでトレーニングを受けま...

AIテクノロジー

「接続から知能へ:ブロックチェーンとAIがIoTエコシステムを変革する方法」

「ブロックチェーンは、金融、データセキュリティとプライバシー、農業、供給などのさまざまな分野で問題解決策を提供する、...

人工知能

AWS Inferentia2は、AWS Inferentia1をベースにしており、スループットが4倍に向上し、レイテンシが10倍低減されています

機械学習モデル(MLモデル)のサイズ、特に生成AIにとって、大規模言語モデル(LLM)やファウンデーションモデル(FM)のサイ...

機械学習

ChatGPTを使った効率的なデバッグ

大規模言語モデルの力を借りて、デバッグ体験を向上させ、より速く学習する

機械学習

「機械学習タスクの自動化:MLCopilotがLLMを活用して開発者を支援し、機械学習プロセスを効率化する方法」

機械学習モデルは、複雑なタスクを解決するための強力なツールとして証明されていますが、これらのモデルのトレーニングは通...