メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー

MetaAI introduces CM3leon a game changer that offers state-of-the-art text-to-image generation and unparalleled computational efficiency in a multimodal format.

自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近のメタ研究では、テキストと画像の両方を生成することができる単一の基礎モデルであるCM3leon(発音は「カメレオン」)が明らかにされました。

大規模な検索支援付き事前学習段階と、2番目のマルチタスク監督された微調整(SFT)段階を備えたCM3leonは、テキストのみの言語モデルから変更されたレシピを使用して開発された最初のマルチモーダルモデルです。

CM3Leonのアーキテクチャは、人気のあるテキストベースのモデルと似ており、デコーダーのみのトランスフォーマーを使用しています。CM3Leonの特徴は、テキストと視覚の両方を受け取り、生成することができることです。従来のトランスフォーマーベースの手法よりも5倍少ない計算で訓練されているにもかかわらず、CM3leonはテキストから画像への生成において最先端のパフォーマンスを提供します。

CM3leonは、自己回帰モデルの柔軟性とパワー、およびトレーニングと推論の効率と経済性を備えています。任意のテキストと画像シーケンスに基づいてテキストと画像のシーケンスを生成することができるため、CM3モデルは因果マスク混合モデルの基準を満たしています。これにより、これらのタスクのいずれかを実行できる以前のモデルよりも大幅に改善されます。

研究者たちは、画像キャプション生成、ビジュアルクエスチョンアンサリング、テキストベースの編集、条件付き画像生成などのタスクに対してCM3leonに大規模なマルチタスク指示の微調整を適用することで、パフォーマンスを大幅に向上させることを示しています。チームは、元のモデル出力からより高解像度の画像を作成するために独立してトレーニングされたスーパーレゾリューション段階を追加しました。

調査結果によると、CM3LeonはGoogleのPartiテキストから画像モデルを上回ります。最も人気のある画像生成ベンチマーク(ゼロショットMS-COCO)でのFID(フレシェ・インセプション・ディスタンス)スコアが4.88となり、新たな最先端を築いています。この成功は、検索の強化とスケーリング技術が自己回帰モデルの出力を決定する上での重要性を示しています。CM3leonは、長いキャプション付けやビジュアルクエスチョンアンサリングなどのビジョン言語タスクで優れたパフォーマンスを発揮します。CM3Leonのゼロショットパフォーマンスは、3十億のテキストトークンから成るデータセットでしか訓練されていないにもかかわらず、より大きなデータセットで訓練されたより大規模なモデルと競争力を持っています。

CM3leonは、さまざまなタスクで印象的なパフォーマンスを示すことで、チームは将来的にはより高い精度で画像を生成し理解することができると期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

このAIニュースレターはあなたが必要なすべてです #72

今週、AIニュースはOpenAIのDevdayと多くの新しいモデルや機能の発売で主導権を握り、それによってエロン・マスクがLLMレース...

機械学習

このAI論文は、柔軟なタスクシステムと手順的生成による強化学習を革新するNeural MMO 2.0を紹介しています

MIT、CarperAI、Parametrix.AIの研究者らは、Neural MMO 2.0を導入しました。これは、多様な目的と報酬信号を定義できる柔軟...

データサイエンス

ユーザーフィードバック - MLモニタリングスタックの欠けている部分

「AIモデルを数ヶ月もかけて実装し、何百万円も投資してみたけれど、誰も使ってくれないことって経験ありますか?採用の課題...

機械学習

チャットアプリのLLMを比較する:LLaMA v2チャット対Vicuna

チャットアプリケーションにおいて、LLaMA v2 ChatとVicunaのどちらを使用するべきですか?2つのLLMの詳細な比較、それぞれの...

機械学習

このAIニュースレターは、あなたが必要とするすべてです#61

「最近の数ヶ月間、私たちは大規模な言語モデル(LLM)の進歩と新しい技術の徐々の導入を続けてきましたが、まだGPT-4を直接...

AIニュース

中国の強力なNvidia AIチップの隠れた市場

深圳華強北電子區的繁華街道之中,一個高端 Nvidia AI 芯片的地下市場悄然興起。這個隱蔽的世界在出口限制和對這些尖端處理器...