ミニGPT-5:生成的なヴォケンによる交錯したビジョンと言語の生成

ミニGPT-5:ビジョンと言語のクロスオーバーによる創造的なヴォケン生成

過去数年間、大規模言語モデル(LLM)は、自然言語処理(NLP)のブレークスルーによって世界中のAI開発者から注目を集めてきました。これらのモデルは、テキスト生成および理解の新たな基準を設定しています。しかし、テキストの生成においては進歩が見られたものの、テキストと整合する画像を生成することはまだ困難です。この課題に対応するため、開発者たちは「生成フォーカストークン」に基づく革新的なビジョンと言語の生成手法を導入し、テキストと画像の調和した出力を実現しました。

MiniGPT-5の基盤となっているのは、説明不要のマルチモーダルデータ生成に重点を置いた2段階のトレーニング戦略です。トレーニングデータは包括的な画像の説明を必要としません。さらに、モデルの整合性を高めるために、モデルには分類器を必要としないガイダンスシステムが組み込まれており、画像生成のためのフォーカストークンの効果を向上させています。初期段階では、MiniGPT-5フレームワークは強力な性能を示し、MMDialogデータセットで訓練されたベースラインDivterモデルに比べて大幅な改善を実現しており、VISTデータセットで行われたヒューマン評価でも適合性のあるさらなるマルチモーダルな出力を提供できることが常に示されています。

MiniGPT5:概要

最近のLLMフレームワークの進展とそれに基づくアプリケーションにより、マルチメディア特徴の統合はその人気が高まっており、最先端のコンテンツ作成ツールから先端のマルチモーダル対話エージェントまで、さまざまなアプリケーションにおいて重要な進歩をもたらすことが証明されています。継続的な研究と開発により、言語とビジョンのモデルは、テキストとビジュアルデータの両方をシームレスに生成できるようにするための取り組みが進んでいます。LLMがシームレスにマルチモーダルなデータを生成できる能力は、eコマースやメディア、仮想現実など、さまざまな領域での対話の向上に貢献するでしょう。

最終的には、モデルがテキストとビジュアルのモダリティを使用して一貫性のある論理的な方法で合成、認識、および応答できるようにすることが目標とされており、情報の流れを調和させ、論理的で一貫した物語を作り出すうえで重要な役割を果たします。テキストとビジュアルのモダリティを組み合わせた一連の流れを実現する必要性は、LLMにおける統合的かつインタラクティブなマルチモーダル対話の需要に基づいています。ただし、LLMにおける統合的かつインタラクティブなマルチモーダル対話を実現することは、多くの課題があります。

  1. 現在のLLMは、テキストの生成やテキストと画像の処理において非常に効率的で能力が高いですが、画像の生成においては満足のいくパフォーマンスを発揮しません。
  2. これらのビジョンと言語のモデルの開発は、トピックに特化したデータに大きく依存しており、生成されたテキストを対応する画像に合わせることが困難です。
  3. さらに、能力が向上するにつれて、LLMのメモリ要件も増加するため、より効果的な戦略を考案する必要があります。

MiniGPT-5フレームワークは、上記の課題に対応するために、「生成フォーカストークン」という概念を取り入れた交互作用する言語とビジョンの生成アルゴリズム手法です。MiniGPT-5フレームワークが提案するマルチモーダルデータ生成の新しいアプローチは、大規模言語モデルと安定拡散技術を組み合わせて特殊な視覚トークンを使用することで実現されます。MiniGPT-5フレームワークが使用する提案された2段階のトレーニング方法は、説明の不要な基盤の段階の重要性を強調しており、限られたデータがあるシナリオでも効率的なパフォーマンスを提供するためのモデルの準備を行っています。

ただし、MiniGPT-5モデルを他の既存のフレームワークとは異なるものにするのは、MiniGPT-5フレームワークの汎用のステージには特定のドメインの注釈が含まれていない点です。さらに、生成されたテキストと対応する画像が互いに調和していることを確実にするため、MiniGPT-5フレームワークは分類器フリーガイダンスと生成フォーカストークンを活用した二重ロス戦略を展開しています。MiniGPT-5フレームワークは、モデルの微調整のためのパラメータ効率の戦略により、トレーニング効率を最適化し、メモリの制約に対応しています。

簡単に要約すると、MiniGPT-5フレームワークは以下のような内容です。

  1. ノベルで一般的な方法であるマルチモーダル・エンコーダを使用し、従来のLLMよりも効果的であることが実証されている方法を提案し、生成用のトークンとStable Diffusion技術を組み合わせ、言語と視覚の出力を交互に生成します。
  2. 説明不要のマルチモーダル出力の生成のための二段階のトレーニング戦略と、トレーニング中にクラス分類器の指示を受けることで生成されるデータの品質をさらに高めます。

MiniGPT-5モデルは、以下の研究および作業から大きな影響を受けています。

  • テキストから画像生成:テキストの説明を対応するビジュアル表現に変換するためのもので、テキストからイメージモデルを利用します。
  • MLLMまたはマルチモーダル大規模言語モデル:事前学習されたLLMモデルを使用して、マルチモーダルデータの生成における応用と効果を探求します。
  • 大規模言語モデルによるマルチモーダル生成:LLMの能力を拡張し、言語と視覚データの生成をシームレスに統合します。

MiniGPT-5:メソッド、アーキテクチャ、フレームワーク

マルチモーダルデータ生成能力を備えた大規模言語モデルを実現するために、MiniGPT-5モデルはテキストから画像生成モデルと事前学習済みのマルチモーダル大規模言語モデルを統合するフレームワークを導入しています。また、MiniGPT-5フレームワークは、異なるドメインで現れる不一致を解消するために、開発者が生の画像を直接トレーニングできる特殊なビジュアルトークン「ジェネレーティブ・ボーケン」を導入します。さらに、LLMによって生成されるマルチモーダルデータの品質を向上させるために、MiniGPT-5フレームワークはクラス分類器を使用せずにトレーニングされる戦略を導入し、高度な二段階のトレーニング方法と組み合わせます。それでは、MiniGPT-5フレームワークを詳しく見てみましょう。

マルチモーダル入力ステージ

LLMの発展により、近年のLLMはマルチモーダル理解能力を持つようになり、画像を連続的な入力として処理することが可能になりました。MiniGPT-5フレームワークでは、マルチモーダルデータ生成のためのマルチモーダル理解能力を拡張するために特別にデザインされたジェネレーティブ・ボーケンを使用します。さらに、MiniGPT-5フレームワークでは、LLMフレームワークとのマルチモーダル出力学習において、パラメータ効率の良い最新の微調整技術を利用します。

マルチモーダルエンコーディング

MiniGPT-5フレームワークの事前学習済みビジュアルエンコーダは、各入力画像を特徴量に変換し、テキストトークンはベクトルとして埋め込まれ、これらの埋め込みを結合することで入力プロンプト特徴量が生成されます。

大規模言語モデルへのボーケンの追加

従来、大規模言語モデルの語彙にはテキストトークンのみが含まれていました。そのため、MiniGPT-5フレームワークの開発者は、ジェネレーティブと従来のLLMのギャップを埋める必要がありました。MiniGPT-5フレームワークは、特殊なトークンとしてジェネレーティブなトークンをLLMの語彙に導入します。その後、フレームワークはこれらの特殊ボーケンのLLMにおける隠れた出力状態を活用してイメージ生成を行い、ボーケンの位置によって挿入される交互に配置された画像を表現します。

PEFTまたはパラメータ効率的微調整

PEFTまたはパラメータ効率的微調整は、LLMのトレーニングに使用される重要な概念ですが、マルチモーダルの設定でのPEFTの応用はまだあまり探求されていません。MiniGPT-5フレームワークでは、MiniGPT-4フレームワークのエンコーダに対してパラメータ効率的微調整を使用して、モデルをより正確にプロンプトや指示を理解させ、ショットゼロや新しい環境でのモデルの全体的なパフォーマンスを向上させるために採用しています。

マルチモーダル出力生成

ジェネレーティブモデルをジェネレーティブボーケンと正確に一致させるため、MiniGPT-5フレームワークでは次元を一致させるためのコンパクトなマッピングモジュールを策定し、潜在的な拡散モデル損失やテキスト空間損失を含む監督損失を組み込んでいます。潜在的な拡散の監督損失は適切なビジュアル特徴をトークンと直接対応させ、テキスト空間損失はトークンの正しい位置を学習するのに役立ちます。MiniGPT-5フレームワークのジェネレーティブボーケンは画像に直接ガイドされるため、包括的な説明がなくてもモデルは学習することができ、説明不要の学習が可能となります。

 テキストスペースの生成

MiniGPT-5フレームワークは、カジュアルな言語モデリング手法に従って、テキストスペース内でvokenとテキストの両方を共同で生成します。トレーニングフェーズでは、開発者はvokenを正解画像の位置に追加し、モデルにテキスト生成内でのvokenの予測をトレーニングさせます。

画像生成のためのVoken特徴のマッピング

テキストスペースを生成した後、フレームワークは、テキストから画像生成モデルの条件付き特徴空間と隠れた出力状態を整合させます。フレームワークは、デュアルレイヤーMLPモデル、学習可能なデコーダ特徴シーケンス、および4層のエンコーダデコーダトランスフォーマーモデルを含む特徴マッパーモジュールもサポートしています。

LDMまたは潜在拡散モデルによる画像生成

ノイズ除去プロセスで必要な画像を生成するため、フレームワークはマッピング特徴を条件入力として使用します。さらに、トレーニングフェーズでは、グランドトゥルース画像を事前学習済みVAEを使用して潜在特徴に変換し、その後、開発者はノイズを追加して潜在ノイズ特徴を取得します。

MiniGPT-5フレームワークによって展開される包括的なアプローチにより、開発者は専門的なトークンを使用して視覚的およびテキスト要素の一貫した理解と生成を可能にし、事前学習済みモデルの能力を活用し、革新的なトレーニング技術を活用することができます。

MiniGPT-5:トレーニングと結果

MiniGPT-5フレームワークで作業する際、開発者は、制約のあるテキストと画像の交互に配置されたデータセットでの直接のトレーニングが、画像の品質の低下や重要なドメインシフトのためにアライメントの問題を引き起こす可能性があることを観察しました。この問題を緩和するために、開発者は2つの異なるトレーニング戦略を採用しました。

  1. 分類器を使用しないガイダンス技術の統合:拡散プロセス中の生成トークンの効果を高めます。
  2. 2つのステージに分かれた2番目の戦略:
    1. 粗い特徴の整合に焦点を当てた初期のプレトレーニングステージ。
    2. 特徴学習を容易にするファインチューニングステージ。

CFGまたは分類器フリーガイダンス

多モーダル生成のためにCFGを最初に活用するアイデアは、生成された画像とテキストの一貫性と論理性を向上させる試みの結果として生まれました。CFGは、テキストから画像への拡散プロセス中に導入されます。この方法は、無条件生成と条件付き生成の両方でトレーニングすることによって、生成モデルがより良い条件付き結果を達成できることを観察しています。

2段階のトレーニング戦略

テキスト-画像生成と純粋なテキスト生成の間に観察される重要なドメインシフトを考慮して、MiniGPT-5フレームワークは2段階の戦略を使用してトレーニングを行います。

  1. ユニモーダルアライメントステージ(UAS)
  2. マルチモーダル学習ステージ(MLS)

最初に、フレームワークは、イメージ生成特徴を単一のテキスト-画像ペアデータセットでのvoken特徴と整合させます。各データサンプルには1つのテキストと1つの画像が含まれ、テキストは通常画像のキャプションです。このステージでは、フレームワークは、LLMがLLM入力としてキャプションを利用してvokenを生成することを許可します。

UASが成功裏に実行されると、モデルは単一のテキストの説明に対して画像を生成できますが、テキスト-画像ペアや複雑な推論を伴うテキストと画像の生成には苦労します。このハードルに対処するために、開発者はMiniGPT-5フレームワークをさらにPEFTパラメータを使用して改良し、VISTなどのテキスト-画像の交互ビジョン-言語データセットを用いてトレーニングを行いました。このステージでは、フレームワークはデータセットから3つの異なるタスクを構築します。

  1. テキストのみの生成:次のイメージが与えられた場合に関連するテキストを生成します。
  2. イメージのみの生成:次のテキストが与えられた場合に関連するイメージを生成します。
  3. マルチモーダル生成:与えられた文脈を用いてテキスト-イメージのペアを生成します。

MiniGPT-5:ベンチマークおよび結果

多モーダル生成のパフォーマンスを総合的に評価するため、MiniGPT-5開発チームはDivter、GILL、およびファインチューニングされた単一モーダル生成モデルを含む他の著名なベースラインモデルとの性能を比較し、その比較結果は以下の表で示されています。

ミニGPT-5フレームワークは、マルチモーダルな出力が文脈に応じて意味を持つ可能性があることを理解していますが、それは主な理由であり、ミニGPT-5フレームワークはモデルのパフォーマンスを評価し、評価するために人間の入力を組み込んでいます。ミニGPT-5フレームワークの効果は、次の3つの観点で測定されます。

  1. 言語の連続性:生成されたコンテンツが提供された文脈とシームレスに一致しているかどうかを評価します。
  2. 画像の品質:生成された画像の関連性と明瞭さを評価または評価します。
  3. マルチモーダルの連続性:テキストと画像の組み合わせ出力が初期の文脈と一致しているかどうかを判断します。

VIST最終ステップ評価

実験の最初の段階では、ミニGPT-5フレームワークは対応する画像を生成することを目指し、以下のテーブルはこの設定から得られた結果をまとめたものです。

上記のように、ミニGPT-5フレームワークは3つの設定すべてで微調整されたSD2フレームワークを上回ることができるため、ミニGPT-5パイプラインの効果を示しています。

上の図は、MiniGPT-5フレームワークのパフォーマンスを、S-BERT、Rouge-L、Meteorのパフォーマンスメトリックスを使用して微調整されたMiniGPT-4フレームワークと比較しています。結果は、生成トークンの使用が、マルチモーダルの理解タスクを実行する際にフレームワークのパフォーマンスに否定的な影響を与えないことを示しています。結果はまた、MiniGPT-5フレームワークがマルチモーダルの理解のための元のモデルの能力を損なうことなく、広範なデータにわたって長い水平マルチモーダル入力プロンプトを利用して高品質で一貫性のある画像を生成する能力を示しています。

上の表は、Multimodal Coherence、Image Quality、Language Continuityの観点から5,000サンプルのマルチモーダル生成の3つのフレームワークのパフォーマンスを比較しています。観察されるように、ミニGPT-5フレームワークは他の2つのベースラインモデルを70%以上上回っています。一方、下のテーブルは、CC3Mバリデーションデータセット上でのミニGPT-5フレームワークの単一画像生成のパフォーマンスを示しています。データの制限により、開発者はStable Diffusionと組み合わせた場合にヴォーケンの整列に問題があることがわかりました。しかし、ミニGPT-5フレームワークはすべてのメトリックにおいて、現在の最先端のベースラインGILLフレームワークを上回っています。

結論

この記事では、ミニGPT-5について話しました。LLMの機能を生かすために、「生成トークン」という概念を導入し、大規模言語モデルをテキストから画像生成モデルと結び付ける、インターリーブされた言語とビジョン生成アルゴリズム技術です。ミニGPT-5フレームワークの基本的なコンポーネントと全体的なアーキテクチャについて説明しました。また、現行のベースラインと最先端モデルと比較した場合の性能と効率の大幅な改善を示す結果についても話しました。ミニGPT-5は、マルチモーダルのコンテンツとデータ生成の領域で新たな基準を設定し、同じ問題を解決しようとする以前のモデルが直面していた課題を解決することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIを活用した空中監視:UCSBイニシアチブがNVIDIA RTXを使い、宇宙の脅威を撃退する目的で立ち上がる

数か月ごとに流星群が起こると、観察者は夜空に散らばる流れ星や光の筋が輝く見事な光景を見ることができます。 通常、流星は...

機械学習

このAIニュースレターがあれば、あなたは全てが揃った!#70

今週のAIでは、特に2つの新しいエージェントモデルのリリースに興味を持っていましたNvidiaは、複雑なタスクを自律的に実行す...

AIニュース

欧州とイスラエルのAIファーストスタートアップのための新しいアクセラレータ

この10週間のプログラムは、Googleとそのネットワークの最高の部分を活用して、AIをコアビジネスに使用しているスタートアッ...

データサイエンス

リトリーバル・オーグメンテッド・ジェネレーションにおける関連性の課題にどのように対処するか

パート1では、非最適な埋め込みモデル、効率の悪いチャンキング戦略、およびメタデータフィルタリングの不足により、LLMから...

人工知能

BScの後に何をすべきか?トップ10のキャリアオプションを探索する

イントロダクション 科学はしばしば無限の可能性の源であり、さまざまな分野でのさらなる研究や雇用の広大な機会を提供します...

機械学習

ビジュアルキャプション:大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

Google Augmented Realityのリサーチサイエンティスト、Ruofei DuとシニアスタッフリサーチサイエンティストのAlex Olwalが投...