「専門家から汎用アシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての詳細な探究」
「専門家からパーソナルアシスタントへ:ビジョンと言語のマルチモーダル基盤モデルの進化についての深い探求」
コンピュータビジョンコミュニティはさまざまな課題に直面しています。事前トレーニング時代には、多目的な視覚ツールを紹介する包括的なフレームワークを確立するために、数多くの講演論文が議論されました。この時期には、問題に関連する大量のデータでモデルを事前トレーニングし、その後、同じ問題タイプに関連するさまざまな実世界のシナリオにそれらを転送するアプローチが一般的でした。これには、しばしばゼロショットまたはフューショットテクニックが使用されます。
最近のマイクロソフトの研究では、ビジョンとビジョン言語の能力を持つ多モーダルな基礎モデルの歴史と開発について、詳細な調査結果を提供しています。特に、専門的なヘルパーから汎用的なヘルパーへの移行を重点的に取り上げています。
彼らの論文によると、主に以下の3つの主要な教育戦略のカテゴリが議論されています。
- 新しいAIの研究がコンピュータビジョンを通じてリチウムイオン電池の秘密を解き明かす
- OpenAIのGPT-4V(ision) AIのマルチモーダルフロンティアにおける大発見
- 「Amazon SageMakerを使用して、ファルコンモデルのパフォーマンスを向上させる」
ラベル付き教育: ラベル付き教育は、モデルをトレーニングするために以前にラベル付けされた例を使用します。ImageNetなどのデータセットを使用することで、この方法の効果を証明しています。インターネット、画像、人間が作成したラベルから大量のノイズのあるデータセットにアクセスできます。
「言語監督」とも呼ばれるこの戦略は、最も頻繁に画像 – テキストのペアで無監督のテキスト信号を使用します。CLIPとALIGNは、コントラスティブロスを使用して画像 – テキストのペアを比較するための事前トレーニングモデルの例です。
画像のみの自己教育学習: この技術は、視覚情報のみを監督信号のソースとしています。マスク画像モデリング、非コントラスティブ、およびコントラストベースの学習は、いずれも有効なオプションです。
研究者は、画像キャプショニング、ビジュアル質問応答、領域レベルの基礎トレーニング、セグメンテーションのためのピクセルレベルの基礎トレーニングなど、視覚理解に対するいくつかのアプローチがどのように統合されて最良の結果を得ることができるかを調査しました。
マルチモーダル基礎モデル
テキストと画像などの複数のモダリティで提示されるデータを理解し解釈する能力が、マルチモーダルの基礎モデルの特徴です。これによって、大量のデータ収集と合成が必要なさまざまなタスクが可能になります。重要な多モーダルの概念的フレームワークには、以下が含まれます。
- CLIP(コントラスティブ言語画像事前トレーニング)は、共通の画像とテキストの埋め込み空間を発見する革新的な技術です。画像テキストの検索やゼロショットの分類などが可能です。
- BEiT(ビジョンのBERT)は、視覚ドメインでのBERTのマスク画像モデリング技術を適応させています。マスク画像のトークンを予測することで、画像変換モデルは他のタスクに進むことができます。
- CoCa(コントラスティブおよびキャプショニング事前トレーニング)は、対照的な学習とキャプション損失を組み合わせて画像エンコーダを事前トレーニングするための手法です。パラフレーズ画像キャプショニングシステムのおかげで、多モーダルタスクの完了を観察することが現実的になりました。
- UniCL(統一コントラスティブ学習)は、CLIPのコントラスティブ学習を画像ラベルデータに拡張することで、画像テキストと画像ラベルのペアに対する統一コントラスティブ事前トレーニングを可能にします。
- MVP(マスク画像モデリングビジョン事前トレーニング)は、マスク画像と高レベルの特徴目標を使用してビジョントランスフォーマーを事前トレーニングする方法です。
- MIMの精度を向上させるため、EVA(Vision-Text Alignmentの活用)は、CLIPなどのモデルからの画像特徴をターゲット特徴として使用します。
- BEiTv2は、DINOのような自己蒸留損失を取り入れることで、学習中にグローバルな視覚表現の獲得を促進するようにBEiTを改良します。
これらのマルチモーダルの基礎モデルにより、コンピュータビジョンと自然言語処理のアプリケーションは、洞察力と処理の向上に大いに恩恵を受けています。
彼らの研究ではさらに、「ビジュアル生成」についても調査しており、テキストから画像生成モデルが画像合成の中核となっていることを明らかにしています。これらのモデルは、より細かいユーザーコントロールとカスタマイズを可能にするために成功裏に拡張されました。問題に関連する大量のデータの入手と生成は、これらのマルチモーダルの基礎モデルの実装において重要な要素です。
T2I生成の紹介T2I生成は、テキストの説明に対応したビジュアルを提供する試みです。これらのモデルは、テキストを入力条件とし、写真を望ましい出力とするという画像とテキストのペアでよくトレーニングされます。
T2Iモデルは、本書全体を通じてステーブルディフュージョン(SD)の例を使用して説明されます。SDは、クロスアテンションベースの画像テキスト統合とディフュージョンベースの生成方法により、人気のあるオープンソースのT2Iモデルです。
SDの主要な構成要素は、Denoising Unified Neural Network(U-Net)、Text Encoder、およびImage Variational Autoencoder(VAE)です。VAEは画像をエンコードし、TENはテキスト条件をエンコードし、Denoising U-Netは潜在空間でノイズを予測して新しい画像を生成します。
空間制御の向上に関する研究が行われ、1つのアプローチとして、地域に基づいたテキストの説明やセグメンテーションマスクやキーポイントなどの密な空間要件など、テキストと並行してより多くの空間条件を入力することを可能にする方法が検討されています。ControlNetなどのT2Iモデルが、セグメンテーションマスクやエッジマップなどの詳細な制約を使用して画像生成プロセスを管理する方法について検討されています。
テキストベースの編集モデルの最近の進展について紹介されています。これらのモデルはテキストの指示に従って写真を変更することができ、ユーザー生成のマスクの必要性を排除します。Alignment tuningにより、T2Iモデルはテキストの指示により良い結果を出すことができ、これは言語モデルがテキスト生成のために訓練される方法と類似しています。強化学習に基づく可能な解決策なども検討されています。
将来の画像とテキストのモデルでは、T2Iモデルの統合されたアライメントソリューションの人気の高まりにより、別々の画像とテキストモデルは不要になるでしょう。この研究では、画像とテキストを同時に入力して、空間制御や編集、概念のカスタマイズなどのタスクをサポートするためのT2Iモデルの統一された入力インターフェースを提案しています。
人間の意図との整合性
T2Iモデルが人間の意図とよく対応する画像を生成するためには、研究では、言語モデルが特定のタスクに合わせて微調整されるように、整合性に焦点を当てた損失と報酬が必要であると強調されています。研究は、多モーダルモデルの理解と生成のタスクを組み合わせたコンテンツの統合的な理解と生成の閉ループ統合の潜在的な利点を探求しています。統一されたビジョンモデルは、一貫したモデリングのLLMの原則を使用して、異なるレベルと活動のために構築されます。
オープンワールド、統一、インタラクティブなビジョンモデルは、ビジョン研究コミュニティの現在の焦点です。しかし、言語と視覚の領域の間にはいくつかの基本的なギャップがあります。
- 視覚は、生の信号を使用して私たちのまわりの世界を捉えることで言語とは異なります。生データからコンパクトな「トークン」を作成するためには、緻密なトークン化プロセスが必要です。これは、多くの確立されたヒューリスティックなトークナイザーの助けを借りて、言語のドメインでは容易に達成できます。
- 言語とは異なり、視覚データにはラベルがありませんので、意味や専門知識を伝えるのは困難です。視覚コンテンツのセマンティックなアノテーションや地理的なアノテーションは常に労働集約的です。
- 言語データと比べて、視覚データと活動のバラエティが広範です。
- 最後に、視覚データのアーカイブのコストは他の言語のデータよりもはるかに高いです。ImageNetデータセット(130万枚の画像を含む)に必要な訓練データの45TBは、GPT-3よりも数百ギガバイト高いコストです。ビデオデータに関しては、ストレージコストはGPT-3の訓練データとほぼ同じです。
これらの視点の違いについては、後の章で議論されています。コンピュータビジョンを使った現実世界で。このため、既存のモデルの訓練に使用される視覚データは、現実世界の多様性を正確に表現するには不十分です。オープンセットのビジョンモデルの構築にもかかわらず、新しいまたはロングテールのイベントの扱いにはまだ重要な課題があります。
彼らによれば、ビジョンとスケールに比例するいくつかの法則が必要です。以前の研究によれば、大規模言語モデルの性能は、モデルのサイズ、データの規模、計算の増加に徐々に改善されることが示されています。より大きなスケールでは、LLMはいくつかの注目すべき新しい特性を示します。ただし、ビジョンモデルをどのように成長させ、新興の特性を活用するのが最も適しているかはまだ謎です。視覚または言語的な入力を使用するモデル。近年では、視覚と言語の領域の間にはますます分離が少なくなってきています。ただし、視覚と言語の固有の違いを考えると、中程度のビジョンモデルとLLMの組み合わせが大部分(もしくは全て)の問題を管理するのに十分かどうかは疑問です。しかし、完全に自律的なAIビジョンシステムを人間と同等のレベルで構築することはまだ先の話です。LLaVAとMiniGPT-4を例に挙げながら、研究者は、LLMの背景と強力な特徴を探求し、LLMでのインストラクションチューニングを研究し、オープンソースリソースを使用してプロトタイプを構築する方法を示しました。
研究者は、新しい機能や評価技術のプロトタイプを作成し、計算上の障壁を下げて大規模モデルをよりアクセス可能にするためのコミュニティの取り組みを続けることを望んでおり、引き続き成功をスケールさせ、新たな特性を研究することに注力しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles