「CMUの研究者らが提案するGILL:LLMと画像エンコーダおよびデコーダモデルを統合するためのAIメソッド」

GILL An AI method integrating LLM, image encoder, and decoder models proposed by researchers at CMU.

OpenAIの新しいGPT 4のリリースにより、大規模言語モデルの多様性が導入されました。以前のバージョンであるGPT 3.5は、テキスト入力を受け付けるためにChatGPTが使用されていましたが、最新のGPT-4はテキストだけでなく画像も入力として受け付けます。最近、カーネギーメロン大学の研究者チームはGenerating Images with Large Language Models (GILL)という手法を提案しました。この手法は、マルチモーダル言語モデルを拡張し、ユニークな画像を生成することに焦点を当てています。

GILL手法により、画像とテキストが混在した入力を処理し、テキストを生成し、画像を取得し、新しい画像を作成することが可能となります。GILLは、異なるテキストエンコーダを使用するモデルが、凍結されたテキストのみのLLMの出力埋め込み空間から凍結された画像生成モデルの埋め込み空間への転送によってこれを実現しています。他の手法とは異なり、画像とテキストのペアリングを使用して、わずかなパラメータのファインチューニングを行うことで、マッピングを実現しています。

チームは、この手法が、凍結されたテキストの大規模言語モデルと既に訓練された画像エンコーディングおよびデコーディングモデルを組み合わせています。これにより、画像検索、ユニークな画像生成、マルチモーダル対話など、幅広いマルチモーダル機能を提供することができます。これは、モダリティの埋め込み空間をマッピングして統合することによって実現されています。GILLは、混在した画像とテキストの入力を条件付きで処理し、一貫性のある読みやすい出力を生成します。

この手法は、優れたパフォーマンスを発揮するために、LLMをテキストから画像生成モデルに接続する効果的なマッピングネットワークを提供します。このマッピングネットワークは、非表示のテキスト表現を視覚モデルの埋め込み空間に変換します。これにより、LLMの強力なテキスト表現を使用して、美学的に一貫した出力を生成します。

この手法により、モデルは指定されたデータセットから画像を取得するだけでなく、新しい画像も作成することができます。モデルは推論時に画像を生成するか取得するかを選択します。LLMの非表示表現に依存する条件付きの学習済み決定モジュールを使用して、この選択を行います。この手法は、トレーニング時に画像生成モデルを実行する必要がないため、計算効率が高いです。

この手法は、特に長くて複雑な言語を必要とするタスクにおいて、ベースラインの生成モデルよりも優れたパフォーマンスを発揮します。比較して、GILLはStable Diffusion手法よりも長い形式のテキスト(対話や議論を含む)の処理において優れた性能を発揮します。GILLは、非LLMベースの生成モデルよりも対話条件付きの画像生成において優れた性能を発揮し、マルチモーダルなコンテキストを活用して与えられたテキストにより適合する画像を生成します。従来のテキストから画像へのモデルがテキスト入力のみを処理するのに対して、GILLは任意の交互に配置された画像とテキストの入力も処理することができます。

まとめると、Generating Images with Large Language Models(GILL)は、以前のマルチモーダル言語モデルと比較して、より幅広い能力を持つ有望な手法です。コンテキストの依存性を測定するさまざまなテキストから画像へのタスクにおいて、非LLMベースの生成モデルを上回る能力を持つため、マルチモーダルタスクにおける強力な解決策となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

メタAIは、SeamlessM4Tを発表しましたこれは、音声とテキストの両方でシームレスに翻訳と転写を行うための基盤となる多言語・マルチタスクモデルです

相互作用がますますグローバル化する世界において、多言語を話すことは隔たりを埋め、理解を促進し、様々な機会の扉を開くこ...

データサイエンス

マイクロソフト アジュール:クラウドコンピューティングの未来を支える

Microsoft Azureの現代のビジネスやテクノロジー環境への影響を発見してください主な特徴、利点、使用例を探索しましょう

機械学習

「Transformerベースの拡散モデルによる画像生成の革新的なアーキテクチャイノベーションを実現するDiffusion Transformers(DiTs)」

機械学習の領域は、トランスフォーマーベースのアーキテクチャの出現により、自然言語処理、コンピュータビジョンなどの各種...

AI研究

「医療分野における生成型AI」

はじめに 生成型人工知能は、ここ数年で急速に注目を集めています。医療と生成型人工知能の間に強い関係性が生まれていること...

AIニュース

イーロン・マスクのxAI企業は資金に関する憶測に直面しています

最近の出来事で、イーロン・マスクの人工知能ベンチャー、xAIが資金調達活動に関する噂で注目を浴びています。マスクの会社は...

AIニュース

「長い尾が犬に振り回される:AIの個別化されたアートに伴う予測不可能な影響」

メタの最近の生成型映画の世界でのエミューの発表は、技術と文化が前例のない形で交差する転換点を示しています。エミューは...