メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー
MetaAI introduces CM3leon a game changer that offers state-of-the-art text-to-image generation and unparalleled computational efficiency in a multimodal format.
自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近のメタ研究では、テキストと画像の両方を生成することができる単一の基礎モデルであるCM3leon(発音は「カメレオン」)が明らかにされました。
大規模な検索支援付き事前学習段階と、2番目のマルチタスク監督された微調整(SFT)段階を備えたCM3leonは、テキストのみの言語モデルから変更されたレシピを使用して開発された最初のマルチモーダルモデルです。
CM3Leonのアーキテクチャは、人気のあるテキストベースのモデルと似ており、デコーダーのみのトランスフォーマーを使用しています。CM3Leonの特徴は、テキストと視覚の両方を受け取り、生成することができることです。従来のトランスフォーマーベースの手法よりも5倍少ない計算で訓練されているにもかかわらず、CM3leonはテキストから画像への生成において最先端のパフォーマンスを提供します。
- 「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」
- マルチモーダル言語モデル:人工知能(AI)の未来
- マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています
CM3leonは、自己回帰モデルの柔軟性とパワー、およびトレーニングと推論の効率と経済性を備えています。任意のテキストと画像シーケンスに基づいてテキストと画像のシーケンスを生成することができるため、CM3モデルは因果マスク混合モデルの基準を満たしています。これにより、これらのタスクのいずれかを実行できる以前のモデルよりも大幅に改善されます。
研究者たちは、画像キャプション生成、ビジュアルクエスチョンアンサリング、テキストベースの編集、条件付き画像生成などのタスクに対してCM3leonに大規模なマルチタスク指示の微調整を適用することで、パフォーマンスを大幅に向上させることを示しています。チームは、元のモデル出力からより高解像度の画像を作成するために独立してトレーニングされたスーパーレゾリューション段階を追加しました。
調査結果によると、CM3LeonはGoogleのPartiテキストから画像モデルを上回ります。最も人気のある画像生成ベンチマーク(ゼロショットMS-COCO)でのFID(フレシェ・インセプション・ディスタンス)スコアが4.88となり、新たな最先端を築いています。この成功は、検索の強化とスケーリング技術が自己回帰モデルの出力を決定する上での重要性を示しています。CM3leonは、長いキャプション付けやビジュアルクエスチョンアンサリングなどのビジョン言語タスクで優れたパフォーマンスを発揮します。CM3Leonのゼロショットパフォーマンスは、3十億のテキストトークンから成るデータセットでしか訓練されていないにもかかわらず、より大きなデータセットで訓練されたより大規模なモデルと競争力を持っています。
CM3leonは、さまざまなタスクで印象的なパフォーマンスを示すことで、チームは将来的にはより高い精度で画像を生成し理解することができると期待しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
- Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット
- 新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます
- 『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』
- 「AIのテスト:ChatGPTと他の大規模言語モデルの偽ニュース検出における詳細な評価」
- このAIニュースレターは、あなたが必要とするすべてです #56
- シンボルの調整は言語モデルの文脈における学習を向上させます