MetaがEmuビデオとEmu編集を発表：テキストからビデオ生成と精密画像編集の先駆的な進化

MetaがEmuビデオとEmu編集を発表：テキストからビデオ生成と精密画像編集の最新進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残されています。従来の方法では、モデルの複雑な連鎖や過剰な修正への支援が必要となることが多く、その有効性が制限されています。メタAIの研究者は、これらの課題に対処するために、2つの画期的な進展である「Emu Video」と「Emu Edit」を紹介しています。この2つの画期的な進展により、高品質なビデオ生成の新たな基準が設定され、以前の研究を上回る成果が出ています。

現在のテキストからビデオを生成する手法では、多数のモデルの連鎖を必要とし、膨大な計算リソースを要求します。Emu Videoは、基礎となるEmuモデルを拡張したもので、プロセスを効率化するための因子分解手法を導入しています。これにより、テキストのプロンプトに基づいた画像生成、およびテキストと生成された画像に基づいたビデオ生成が行われます。この手法の簡易性により、わずか2つの拡散モデルだけで高品質のビデオ生成が実現され、以前の研究を凌駕しています。

一方、従来の画像編集ツールは、ユーザーが正確な制御ができるように改良される必要があります。

Emu Editは、領域ベースの編集やフリーフォームの編集など、さまざまな画像編集タスクを処理するマルチタスクの画像編集モデルです。また、検出やセグメンテーションといった重要なコンピュータビジョンのタスクも同時に処理します。

Emu Videoの因子分解アプローチはトレーニングを効率化し、印象的な結果をもたらします。たった2つの拡散モデルで512×512の4秒間のビデオを毎秒16フレーム生成することは、大きな進歩です。ヒューマン評価では、Emu Videoが以前の研究に優れているとの一貫した評価がされ、ビデオの品質とテキストの指示への忠実度の両方で優れた性能を発揮しています。さらに、このモデルはユーザー提供の画像をアニメーション化する能力も備えており、この領域で新たな基準を設定しています。

Emu Editのアーキテクチャは、マルチタスク学習に最適化されており、さまざまな画像編集タスクに適応性を示しています。学習されたタスク埋め込みの導入により、編集の指示の実行において精密な制御が可能となっています。Few-shotの適応実験では、Emu Editが新しいタスクに素早く適応できることが示されており、限られたラベル付きの例や計算リソースのある状況で有利です。Emu Editとともにリリースされたベンチマークデータセットにより、命令の忠実度と画像の品質で優れたモデルとして位置づけられています。

結論として、Emu VideoとEmu Editは生成AIの革新的な飛躍を表しています。これらのイノベーションは、テキストからビデオを生成する方法と命令に基づいた画像編集の課題に取り組み、合理化されたプロセス、優れた品質、および前例のない適応性を提供しています。魅力的な動画を作成するから正確な画像編集を実現するまで、これらの進歩が創造的な表現に与える深い影響を強調しています。ユーザー提供の画像をアニメーション化したり、複雑な画像編集を実行したりすることで、Emu VideoとEmu Editはユーザーが新たに制御と創造性を持って自己表現するためのエキサイティングな可能性を開放します。

EMU Videoの論文：https://emu-video.metademolab.com/assets/emu_video.pdf

EMU Editの論文：https://emu-edit.metademolab.com/assets/emu_edit.pdf

この記事は、MetaがEmu VideoとEmu Editを発表：テキストからビデオ生成と精密画像編集の先駆的な進歩で最初に掲載されました。メイン記事：MarkTechPost

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceComputer VisionEditors Pick

Was this article helpful?

93 out of 132 found this helpful

MetaがEmuビデオとEmu編集を発表：テキストからビデオ生成と精密画像編集の先駆的な進化

Was this article helpful?

朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです

「PyTorchで最初のニューラルネットワークを開発する」

機械学習

テキストから画像への革命：SegmindのSD-1Bモデルが最速のゲームで登場

オンラインで機械学習を学ぶ方法

CMUの研究者がMultiModal Graph Learning（MMGL）を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

OpenAIのモデレーションAPIを使用してコンテンツのモデレーションを強化する

「条件付き生成敵対的ネットワークとは何ですか？」

「LLMの幻覚の理解と軽減」