「脱拡散を用いたLLMsにおける強力なクロスモーダルインターフェースのための情報豊富なテキストの生成」

「情報満載なテキスト生成による脱拡散を活用したLLMsにおける強力なクロスモーダルインターフェース」

世界的な現象であるLLM(Large Language Model)製品の例として、ChatGPTの広範な採用が注目されています。LLMは自然言語会話を理解し、人間のクリエイティブなタスクを支援する上での利点について、多くの人々の間で一致が生まれています。しかし、この認識にもかかわらず、これらのテクノロジーの進化の先にはどのような展望があるのでしょうか?

顕著な傾向として、画像、動画、音声など、さまざまなモダリティを理解するためのモデルへのシフトが示されています。優れた画像理解能力を持つマルチモーダルモデルであるGPT-4が最近発表され、オーディオ処理能力も付属しています。

ディープラーニングの登場以来、クロスモーダルなインタフェースではしばしばディープエンベディングが使われてきました。これらのエンベディングは、自己符号化器としてトレーニングされた際に画像ピクセルを保持する能力を備えており、最近のモデル(CLIPなど)によって示されているように、意味のある内容を実現することもできます。音声とテキストの関係を考えると、テキストは直感的なクロスモーダルなインタフェースとして自然に機能し、しばしば見落とされがちです。音声オーディオをテキストに変換することにより、コンテンツは効果的に保持され、成熟したテキスト読み上げ技術を使用して音声オーディオを再構築することができます。さらに、転写されたテキストは必要なすべての意味情報を具備していると考えられています。類推して言えば、画像をテキストに同様に「転写」することができます。これは一般的には画像キャプションと呼ばれるプロセスです。ただし、典型的な画像キャプションは内容の保持には短所があり、精度を重視する傾向があります。画像キャプションは、幅広い視覚的な問い合わせに対応するのに苦労しています。

画像キャプションの制約にもかかわらず、正確かつ包括的なテキストが実現可能である場合、直感的にも実用的にも有望な選択肢となります。実用的な観点からは、テキストはLLMにとってネイティブな入力ドメインとなります。テキストの使用により、ディープエンベディングとしばしば関連付けられる適応トレーニングの必要性がなくなります。トップパフォーマーのLLMのトレーニングと適応の手間が膨大なコストとなることを考えると、テキストのモジュラーデザインはより多くの可能性を開放します。では、どのようにして画像の正確で包括的なテキスト表現を達成できるのでしょうか?解決策は、古典的なオートエンコーディングのテクニックに頼ることにあります。

従来のオートエンコーダーとは異なり、採用されたアプローチでは、デコーダーとして事前トレーニングされたテキストから画像への変換モデルを使用し、テキストを自然な潜在空間として扱います。エンコーダーは入力画像をテキストに変換するためにトレーニングされ、その後、テキストをテキストから画像への変換モデルに入力して元の入力を再構築します。再構築エラーを最小化することを目的としており、潜在的なテキストが入力画像の「ばらばらのキャプション」として組み合わされる場合でも、正確かつ包括的であることが求められます。

最近のテキストから画像への生成モデルの進歩により、複雑な文章(10語以上)を非常に詳細なイメージに変換する能力が顕著に示されています。これにより、これらの生成モデルが複雑なテキストを視覚的に整合した出力に処理する能力が備わっていることが示されています。デコーダーとしてこのような生成的なテキストから画像モデルを組み込むことで、最適化されたエンコーダーはテキストの広範な潜在空間を探索し、生成モデルに内包された豊富なビジュアル-言語知識を明らかにします。

これらの発見に支えられ、研究者たちはDe-Diffusionというオートエンコーダーを開発し、テキストを堅牢なクロスモーダルインタフェースとして利用しています。そのアーキテクチャの概要は以下のとおりです。

De-Diffusionにはエンコーダーとデコーダーが含まれています。エンコーダーは入力画像を説明的なテキストに変換するためにトレーニングされ、そのテキストは固定された事前トレーニング済みのテキストから画像への拡散デコーダーに供給され、元の入力を再構築します。

提案された手法の実験により、De-Diffusionによって生成されたテキストは、画像の意味的な概念を巧みに捉えることができると確認され、テキストプロンプトとして使用する際にさまざまなビジョン-言語アプリケーションを実現できることが示されました。 De-Diffusionテキストは、さまざまなテキストから画像へのツールのプロンプトとして転用可能な汎化能力を持っています。再構築FIDを使用した定量的評価では、De-Diffusionテキストは、人間の注釈付きキャプションに比べて第三者のテキストから画像モデルへのプロンプトとして有意に優れています。さらに、De-Diffusionテキストは、数少ないタスク固有の例をプロンプトとして提供するだけで、オフシェルフのLLMを使用してオープンエンドのビジョン-言語タスクを実行することを容易にします。これらの結果は、De-Diffusionテキストが人間の解釈とさまざまなドメイン間のさまざまなオフシェルフモデルを効果的に結びつけることを示しています。

これはDe-Diffusionの要約であり、入力画像を豊かな情報を持つテキストに変換する新しいAI技術です。このテキストはさまざまなモダリティ間で柔軟なインターフェースとして機能し、多様な音声、映像、言語のアプリケーションを可能にします。興味がある場合は、以下に引用されたリンクを参照して詳細を学ぶことができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ディープラーニングベースのフレームワークを使用した高速かつ正確な音響ホログラム生成」

DGIST電気工学およびコンピュータサイエンス学科の黄宰潤教授率いるチームは、ホログラムに基づいたリアルタイムでの焦点超音...

機械学習

「GANが人工的なセレブリティのアイデンティティを作り出す方法」

イントロダクション 人工知能の時代において、驚くべき現象が展開されています――生成対抗ネットワーク(GAN)が創造的に人工...

データサイエンス

DLノート:勾配降下法

人工ニューラルネットワーク(ANN)は、万能関数近似器です十分なデータが与えられ、適切なアーキテクチャがあり、十分な訓練...

データサイエンス

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

AI研究

UCLとGoogle DeepMindの研究者が、トランスフォーマーニューラルネットワークにおけるインコンテキスト学習(ICL)の一瞬のダイナミクスを明らかにします

モデルが推論時に入力を使用して重みを更新せずに動作を変更する能力は、インコンテキスト学習またはICLとして知られています...

機械学習

イクイノックスに会いましょう:ニューラルネットワークとsciMLのためのJAXライブラリ

データサイエンスや機械学習コミュニティ内で人気を集めている数値計算メソッドのためのJAXライブラリ、Equinoxに会いましょ...