メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー

MetaAI introduces CM3leon a game changer that offers state-of-the-art text-to-image generation and unparalleled computational efficiency in a multimodal format.

自然言語処理とテキスト入力に基づいた視覚生成システムは、最近、生成型AIモデルへの新たな関心を引き起こしています。最近のメタ研究では、テキストと画像の両方を生成することができる単一の基礎モデルであるCM3leon(発音は「カメレオン」)が明らかにされました。

大規模な検索支援付き事前学習段階と、2番目のマルチタスク監督された微調整(SFT)段階を備えたCM3leonは、テキストのみの言語モデルから変更されたレシピを使用して開発された最初のマルチモーダルモデルです。

CM3Leonのアーキテクチャは、人気のあるテキストベースのモデルと似ており、デコーダーのみのトランスフォーマーを使用しています。CM3Leonの特徴は、テキストと視覚の両方を受け取り、生成することができることです。従来のトランスフォーマーベースの手法よりも5倍少ない計算で訓練されているにもかかわらず、CM3leonはテキストから画像への生成において最先端のパフォーマンスを提供します。

CM3leonは、自己回帰モデルの柔軟性とパワー、およびトレーニングと推論の効率と経済性を備えています。任意のテキストと画像シーケンスに基づいてテキストと画像のシーケンスを生成することができるため、CM3モデルは因果マスク混合モデルの基準を満たしています。これにより、これらのタスクのいずれかを実行できる以前のモデルよりも大幅に改善されます。

研究者たちは、画像キャプション生成、ビジュアルクエスチョンアンサリング、テキストベースの編集、条件付き画像生成などのタスクに対してCM3leonに大規模なマルチタスク指示の微調整を適用することで、パフォーマンスを大幅に向上させることを示しています。チームは、元のモデル出力からより高解像度の画像を作成するために独立してトレーニングされたスーパーレゾリューション段階を追加しました。

調査結果によると、CM3LeonはGoogleのPartiテキストから画像モデルを上回ります。最も人気のある画像生成ベンチマーク(ゼロショットMS-COCO)でのFID(フレシェ・インセプション・ディスタンス)スコアが4.88となり、新たな最先端を築いています。この成功は、検索の強化とスケーリング技術が自己回帰モデルの出力を決定する上での重要性を示しています。CM3leonは、長いキャプション付けやビジュアルクエスチョンアンサリングなどのビジョン言語タスクで優れたパフォーマンスを発揮します。CM3Leonのゼロショットパフォーマンスは、3十億のテキストトークンから成るデータセットでしか訓練されていないにもかかわらず、より大きなデータセットで訓練されたより大規模なモデルと競争力を持っています。

CM3leonは、さまざまなタスクで印象的なパフォーマンスを示すことで、チームは将来的にはより高い精度で画像を生成し理解することができると期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「AIとともに音楽生成の世界を探索する」

はじめに AIを利用した音楽生成は、音楽の制作と楽しみ方を変革する貴重な分野として重要性を増しています。このプロジェクト...

人工知能

「ウェブ開発の未来:予測と可能性」

「ウェブ開発の未来を発見しましょう!AI、PWA、VRなどを探求しましょう可能性やウェブ開発者の役割についての洞察を得ましょ...

AIニュース

「RBIは、Conversational AIとオフライン決済の使用をUPIで採用する」

デジタル決済において新たな地平を切り開くため、インド準備銀行(RBI)は高度な統合支払いインターフェース(UPI)の機能を...

AIニュース

OpenAI GPT(ジェネラル プロダクト トランスフォーマー):自分自身で作るChatGPTを活用した対話型AI

私たちの詳細な記事でカスタムGPTについて学びましょうその中では、あなたのニーズに合わせたAIチャットボットを簡単に作成す...

データサイエンス

「生成型AIアプリケーションのためのプレイブック」

この記事では、Generative AIアプリケーションを実装する際の主要な考慮事項と、ビジョンを行動に変えるために人間の関与が果...