MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の先駆的な進化

MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の最新進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残されています。従来の方法では、モデルの複雑な連鎖や過剰な修正への支援が必要となることが多く、その有効性が制限されています。メタAIの研究者は、これらの課題に対処するために、2つの画期的な進展である「Emu Video」と「Emu Edit」を紹介しています。この2つの画期的な進展により、高品質なビデオ生成の新たな基準が設定され、以前の研究を上回る成果が出ています。

現在のテキストからビデオを生成する手法では、多数のモデルの連鎖を必要とし、膨大な計算リソースを要求します。Emu Videoは、基礎となるEmuモデルを拡張したもので、プロセスを効率化するための因子分解手法を導入しています。これにより、テキストのプロンプトに基づいた画像生成、およびテキストと生成された画像に基づいたビデオ生成が行われます。この手法の簡易性により、わずか2つの拡散モデルだけで高品質のビデオ生成が実現され、以前の研究を凌駕しています。

一方、従来の画像編集ツールは、ユーザーが正確な制御ができるように改良される必要があります。

Emu Editは、領域ベースの編集やフリーフォームの編集など、さまざまな画像編集タスクを処理するマルチタスクの画像編集モデルです。また、検出やセグメンテーションといった重要なコンピュータビジョンのタスクも同時に処理します。

Emu Videoの因子分解アプローチはトレーニングを効率化し、印象的な結果をもたらします。たった2つの拡散モデルで512×512の4秒間のビデオを毎秒16フレーム生成することは、大きな進歩です。ヒューマン評価では、Emu Videoが以前の研究に優れているとの一貫した評価がされ、ビデオの品質とテキストの指示への忠実度の両方で優れた性能を発揮しています。さらに、このモデルはユーザー提供の画像をアニメーション化する能力も備えており、この領域で新たな基準を設定しています。

Emu Editのアーキテクチャは、マルチタスク学習に最適化されており、さまざまな画像編集タスクに適応性を示しています。学習されたタスク埋め込みの導入により、編集の指示の実行において精密な制御が可能となっています。Few-shotの適応実験では、Emu Editが新しいタスクに素早く適応できることが示されており、限られたラベル付きの例や計算リソースのある状況で有利です。Emu Editとともにリリースされたベンチマークデータセットにより、命令の忠実度と画像の品質で優れたモデルとして位置づけられています。

結論として、Emu VideoとEmu Editは生成AIの革新的な飛躍を表しています。これらのイノベーションは、テキストからビデオを生成する方法と命令に基づいた画像編集の課題に取り組み、合理化されたプロセス、優れた品質、および前例のない適応性を提供しています。魅力的な動画を作成するから正確な画像編集を実現するまで、これらの進歩が創造的な表現に与える深い影響を強調しています。ユーザー提供の画像をアニメーション化したり、複雑な画像編集を実行したりすることで、Emu VideoとEmu Editはユーザーが新たに制御と創造性を持って自己表現するためのエキサイティングな可能性を開放します。

EMU Videoの論文:https://emu-video.metademolab.com/assets/emu_video.pdf

EMU Editの論文:https://emu-edit.metademolab.com/assets/emu_edit.pdf

この記事は、MetaがEmu VideoとEmu Editを発表:テキストからビデオ生成と精密画像編集の先駆的な進歩で最初に掲載されました。メイン記事:MarkTechPost

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)...

機械学習

オンラインで機械学習を学ぶ方法

導入 機械学習は現在高度に発展している技術の分野です。この技術により、コンピュータシステムは技術的なプログラミングなし...

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

機械学習

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

プロンプトエンジニアリングの台頭や、言語モデルの大規模な成果により、私たちの問いに対する応答を生成する際の大変な成果...

機械学習

「条件付き生成敵対的ネットワークとは何ですか?」

CGAN(Conditional Generative Adversarial Networks)は、特定のパラメータやラベルをGANに組み込むことで、データ作成プロ...

データサイエンス

「LLMの幻覚の理解と軽減」

最近、大型言語モデル(LLM)は、ユーザーのプロンプトに対して非常に流暢で説得力のある応答を生成するなど、印象的かつ増大...