「CMUの研究者らが提案するGILL:LLMと画像エンコーダおよびデコーダモデルを統合するためのAIメソッド」

GILL An AI method integrating LLM, image encoder, and decoder models proposed by researchers at CMU.

OpenAIの新しいGPT 4のリリースにより、大規模言語モデルの多様性が導入されました。以前のバージョンであるGPT 3.5は、テキスト入力を受け付けるためにChatGPTが使用されていましたが、最新のGPT-4はテキストだけでなく画像も入力として受け付けます。最近、カーネギーメロン大学の研究者チームはGenerating Images with Large Language Models (GILL)という手法を提案しました。この手法は、マルチモーダル言語モデルを拡張し、ユニークな画像を生成することに焦点を当てています。

GILL手法により、画像とテキストが混在した入力を処理し、テキストを生成し、画像を取得し、新しい画像を作成することが可能となります。GILLは、異なるテキストエンコーダを使用するモデルが、凍結されたテキストのみのLLMの出力埋め込み空間から凍結された画像生成モデルの埋め込み空間への転送によってこれを実現しています。他の手法とは異なり、画像とテキストのペアリングを使用して、わずかなパラメータのファインチューニングを行うことで、マッピングを実現しています。

チームは、この手法が、凍結されたテキストの大規模言語モデルと既に訓練された画像エンコーディングおよびデコーディングモデルを組み合わせています。これにより、画像検索、ユニークな画像生成、マルチモーダル対話など、幅広いマルチモーダル機能を提供することができます。これは、モダリティの埋め込み空間をマッピングして統合することによって実現されています。GILLは、混在した画像とテキストの入力を条件付きで処理し、一貫性のある読みやすい出力を生成します。

この手法は、優れたパフォーマンスを発揮するために、LLMをテキストから画像生成モデルに接続する効果的なマッピングネットワークを提供します。このマッピングネットワークは、非表示のテキスト表現を視覚モデルの埋め込み空間に変換します。これにより、LLMの強力なテキスト表現を使用して、美学的に一貫した出力を生成します。

この手法により、モデルは指定されたデータセットから画像を取得するだけでなく、新しい画像も作成することができます。モデルは推論時に画像を生成するか取得するかを選択します。LLMの非表示表現に依存する条件付きの学習済み決定モジュールを使用して、この選択を行います。この手法は、トレーニング時に画像生成モデルを実行する必要がないため、計算効率が高いです。

この手法は、特に長くて複雑な言語を必要とするタスクにおいて、ベースラインの生成モデルよりも優れたパフォーマンスを発揮します。比較して、GILLはStable Diffusion手法よりも長い形式のテキスト(対話や議論を含む)の処理において優れた性能を発揮します。GILLは、非LLMベースの生成モデルよりも対話条件付きの画像生成において優れた性能を発揮し、マルチモーダルなコンテキストを活用して与えられたテキストにより適合する画像を生成します。従来のテキストから画像へのモデルがテキスト入力のみを処理するのに対して、GILLは任意の交互に配置された画像とテキストの入力も処理することができます。

まとめると、Generating Images with Large Language Models(GILL)は、以前のマルチモーダル言語モデルと比較して、より幅広い能力を持つ有望な手法です。コンテキストの依存性を測定するさまざまなテキストから画像へのタスクにおいて、非LLMベースの生成モデルを上回る能力を持つため、マルチモーダルタスクにおける強力な解決策となります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「機械学習入門:その多様な形式を探索する」

最近、機械学習はどこにでもありますねもしもあなたがここにいるなら、機械学習が一体何なのかに興味を持ったのかもしれませ...

データサイエンス

制限から自由:MoMAでのマシン幻覚の検証

Refik Anadol Studioのリードデータサイエンティスト、クリスチャン・バークは、MoMAで展示された「Unsupervised」展での仕事...

機械学習

NVIDIAのCEO、ヨーロッパの生成AIエグゼクティブが成功の鍵を議論

3つの主要なヨーロッパの生成AIスタートアップが、NVIDIAの創設者兼CEOのジェンソン・ホアンと一緒に新しいコンピューティン...

人工知能

「安全で、安心で信頼性のあるAIフレームワークを開発するための専門家の洞察」

「バイデン大統領の最近の執行命令に基づき、安全で信頼性のあるAIを重視するという方針に沿って、米国連邦政府の資金援助を...

機械学習

Rによるディープラーニング

このチュートリアルでは、Rで深層学習タスクを実行する方法を学びます