3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

OpenFlamingoチームは、3B、4B、9Bのスケールで5つの新しいマルチモーダルモデルを持つOpenFlamingo v2をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。このプロジェクトはDeepMindのFlamingoチームと同様のモデルを構築することを目指しています。OpenFlamingoモデルは、任意の混合テキストと画像のシーケンスを処理し、テキストを出力することができます。キャプショニング、ビジュアルクエスチョンアンサリング、画像分類などが、このモデルの能力とコンテキストでのサンプリングを活用することができる活動の一部です。

現在、チームはv2のリリースを発表しました。このリリースには、3B、4B、9Bのレベルでトレーニングされた5つのOpenFlamingoモデルが含まれています。これらのモデルは、LLaMAよりも制約の緩いオープンソースモデルから派生しており、MosaicのMPT-1Bと7B、Together.XYZのRedPajama-3Bなどが含まれています。

研究者たちは、すでにプリトレーニングされた静的言語モデルのレイヤーに視覚的な特徴を追加することで、Flamingoモデリングパラダイムを使用しました。ビジョンエンコーダーと言語モデルは静的なままですが、接続モジュールはFlamingoと同様にWebスクレイピングされた画像テキストのシーケンスを使用してトレーニングされます。

チームは、キャプショニング、VQA、および分類モデルをビジョン言語データセットでテストしました。その結果、チームはv1リリースとOpenFlamingo-9B v2モデルの間で大きな進歩を遂げたことがわかりました。

彼らは7つのデータセットと5つの異なるコンテキストからの結果を組み合わせて、モデルの有効性を評価しました。コンテキストのないショット、4つのショット、8つのショット、16のショット、32のショットの評価を行いました。OpenFlamingo (OF)のOF-3BおよびOF-4BレベルのモデルをFlamingo-3BおよびFlamingo-9Bレベルのモデルと比較し、平均してOpenFlamingo (OF)はFlamingoの性能の80%以上を達成していることがわかりました。研究者たちはまた、自身の結果をPapersWithCodeで公開された最適化されたSoTAと比較しました。オンラインデータのみで事前トレーニングされたOpenFlamingo-3BおよびOpenFlamingo-9Bモデルは、32のコンテキストインスタンスで微調整された性能の55%以上を達成しています。OpenFlamingoのモデルは、0ショットではDeepMindの平均10%、32ショットでは15%遅れています。

チームは引き続きトレーニングと最先端のマルチモーダルモデルの提供に取り組んでいます。次に、事前トレーニングに使用するデータの品質を向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「AIによるPaytmによるインド経済の保護:金融セキュリティの革新」

インドの金融セクターの景観を再定義する画期的な動きとして、Paytmという有名ブランドの親会社であるOne 97 Communications ...

AIニュース

スポティファイはAIを取り入れる:個人に合わせたプレイリストからオーディオ広告まで

人気のある音楽ストリーミングプラットフォームであるSpotifyは、常にユーザーエクスペリエンスを向上させる方法を探求する技...

AIニュース

「GPT-4とXGBoost 2.0の詳細な情報:AIの新たなフロンティア」

イントロダクション AIは、GPT-4などのLLMの出現により、人間の言語の理解と生成を革新し、大きな変化を経験しています。同時...

機械学習

自然言語処理における転移学習:テキスト分類のための事前学習済みモデルの活用

この記事では、転移学習の概念について説明し、いくつかの人気のある事前学習済みモデルを探求し、テキスト分類に使用する方...

データサイエンス

生成AIのアシストを使用して複雑なSQLクエリを作成する

イントロダクション ChatGPTの登場は、AIの歴史において前例のない瞬間を迎えました。ChatGPTや他の多くの生成型AIツールは、...

データサイエンス

「LLMテクノロジーの理解」

「LLMテクノロジーの進歩を発見しましょうLLMテクノロジーの世界を探求し、AIとNLPの分野における重要な役割を見つけましょう」