3B、4B、9B のスケールで 5 つの新しいマルチモーダルモデルを備えた OpenFlamingo チームが、前モデルを上回る OpenFlamingo v2 をリリースしました

OpenFlamingoチームは、3B、4B、9Bのスケールで5つの新しいマルチモーダルモデルを持つOpenFlamingo v2をリリースしました

ワシントン大学、スタンフォード大学、AI2、UCSB、Googleの研究者グループは、最近OpenFlamingoプロジェクトを開発しました。このプロジェクトはDeepMindのFlamingoチームと同様のモデルを構築することを目指しています。OpenFlamingoモデルは、任意の混合テキストと画像のシーケンスを処理し、テキストを出力することができます。キャプショニング、ビジュアルクエスチョンアンサリング、画像分類などが、このモデルの能力とコンテキストでのサンプリングを活用することができる活動の一部です。

現在、チームはv2のリリースを発表しました。このリリースには、3B、4B、9Bのレベルでトレーニングされた5つのOpenFlamingoモデルが含まれています。これらのモデルは、LLaMAよりも制約の緩いオープンソースモデルから派生しており、MosaicのMPT-1Bと7B、Together.XYZのRedPajama-3Bなどが含まれています。

研究者たちは、すでにプリトレーニングされた静的言語モデルのレイヤーに視覚的な特徴を追加することで、Flamingoモデリングパラダイムを使用しました。ビジョンエンコーダーと言語モデルは静的なままですが、接続モジュールはFlamingoと同様にWebスクレイピングされた画像テキストのシーケンスを使用してトレーニングされます。

チームは、キャプショニング、VQA、および分類モデルをビジョン言語データセットでテストしました。その結果、チームはv1リリースとOpenFlamingo-9B v2モデルの間で大きな進歩を遂げたことがわかりました。

彼らは7つのデータセットと5つの異なるコンテキストからの結果を組み合わせて、モデルの有効性を評価しました。コンテキストのないショット、4つのショット、8つのショット、16のショット、32のショットの評価を行いました。OpenFlamingo (OF)のOF-3BおよびOF-4BレベルのモデルをFlamingo-3BおよびFlamingo-9Bレベルのモデルと比較し、平均してOpenFlamingo (OF)はFlamingoの性能の80%以上を達成していることがわかりました。研究者たちはまた、自身の結果をPapersWithCodeで公開された最適化されたSoTAと比較しました。オンラインデータのみで事前トレーニングされたOpenFlamingo-3BおよびOpenFlamingo-9Bモデルは、32のコンテキストインスタンスで微調整された性能の55%以上を達成しています。OpenFlamingoのモデルは、0ショットではDeepMindの平均10%、32ショットでは15%遅れています。

チームは引き続きトレーニングと最先端のマルチモーダルモデルの提供に取り組んでいます。次に、事前トレーニングに使用するデータの品質を向上させることを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

Google Gemini APIを使用してLLMモデルを構築する

導入 ChatGPTとOpenAIのGPTモデルのリリース、およびMicrosoftとのパートナーシップにより、AIの領域にTransformerモデルをも...

AI研究

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

ヴァンダービルト大学とカリフォルニア大学デービス校の研究者は、PRANCと呼ばれる枠組みを導入しました。この枠組みは、重み...

AI研究

SalesForce AI 研究 BannerGen マルチモダリティ バナー生成のためのオープンソース ライブラリ

効果的なグラフィックデザインは成功したマーケティングキャンペーンの基盤です。それはデザイナーと視聴者の間のコミュニケ...

AIニュース

APIワールド2023:API、AI、および秘密のセキュリティを結集する

「API World 2023は、ベストプラクティスの洞察を共有し、すべての資産を考慮すること、そしてAPI駆動型の世界におけるAIとAP...

データサイエンス

『FastSpeech:論文の概要と実装』

2019年、FastSpeechはニューラルテキスト音声変換のフロンティアを推し進め、推論速度を大幅に改善しながら、単語の繰り返し...

機械学習

適切なバランスを取る:機械学習モデルにおける過学習と過小適合の理解

機械学習の問題に取り組むすべての人は、自分のモデルができるだけ最適に動作することを望んでいますしかし、望むほどモデル...