MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の先駆的な進化

MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の最新進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残されています。従来の方法では、モデルの複雑な連鎖や過剰な修正への支援が必要となることが多く、その有効性が制限されています。メタAIの研究者は、これらの課題に対処するために、2つの画期的な進展である「Emu Video」と「Emu Edit」を紹介しています。この2つの画期的な進展により、高品質なビデオ生成の新たな基準が設定され、以前の研究を上回る成果が出ています。

現在のテキストからビデオを生成する手法では、多数のモデルの連鎖を必要とし、膨大な計算リソースを要求します。Emu Videoは、基礎となるEmuモデルを拡張したもので、プロセスを効率化するための因子分解手法を導入しています。これにより、テキストのプロンプトに基づいた画像生成、およびテキストと生成された画像に基づいたビデオ生成が行われます。この手法の簡易性により、わずか2つの拡散モデルだけで高品質のビデオ生成が実現され、以前の研究を凌駕しています。

一方、従来の画像編集ツールは、ユーザーが正確な制御ができるように改良される必要があります。

Emu Editは、領域ベースの編集やフリーフォームの編集など、さまざまな画像編集タスクを処理するマルチタスクの画像編集モデルです。また、検出やセグメンテーションといった重要なコンピュータビジョンのタスクも同時に処理します。

Emu Videoの因子分解アプローチはトレーニングを効率化し、印象的な結果をもたらします。たった2つの拡散モデルで512×512の4秒間のビデオを毎秒16フレーム生成することは、大きな進歩です。ヒューマン評価では、Emu Videoが以前の研究に優れているとの一貫した評価がされ、ビデオの品質とテキストの指示への忠実度の両方で優れた性能を発揮しています。さらに、このモデルはユーザー提供の画像をアニメーション化する能力も備えており、この領域で新たな基準を設定しています。

Emu Editのアーキテクチャは、マルチタスク学習に最適化されており、さまざまな画像編集タスクに適応性を示しています。学習されたタスク埋め込みの導入により、編集の指示の実行において精密な制御が可能となっています。Few-shotの適応実験では、Emu Editが新しいタスクに素早く適応できることが示されており、限られたラベル付きの例や計算リソースのある状況で有利です。Emu Editとともにリリースされたベンチマークデータセットにより、命令の忠実度と画像の品質で優れたモデルとして位置づけられています。

結論として、Emu VideoとEmu Editは生成AIの革新的な飛躍を表しています。これらのイノベーションは、テキストからビデオを生成する方法と命令に基づいた画像編集の課題に取り組み、合理化されたプロセス、優れた品質、および前例のない適応性を提供しています。魅力的な動画を作成するから正確な画像編集を実現するまで、これらの進歩が創造的な表現に与える深い影響を強調しています。ユーザー提供の画像をアニメーション化したり、複雑な画像編集を実行したりすることで、Emu VideoとEmu Editはユーザーが新たに制御と創造性を持って自己表現するためのエキサイティングな可能性を開放します。

EMU Videoの論文:https://emu-video.metademolab.com/assets/emu_video.pdf

EMU Editの論文:https://emu-edit.metademolab.com/assets/emu_edit.pdf

この記事は、MetaがEmu VideoとEmu Editを発表:テキストからビデオ生成と精密画像編集の先駆的な進歩で最初に掲載されました。メイン記事:MarkTechPost

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

デビッドソンシーングラフにお会いください:高精度なテキストから画像へのAI評価のための革命的なAIフレームワーク

T2Iモデル(テキストから画像を生成するモデル)の評価は困難であり、しばしば質問生成と回答(QG/A)の手法に依存してテキス...

データサイエンス

AIOpsの力を解き放つ:最適化されたITオペレーションのための知的自動化によるDevOpsの強化

DevOpsのプラクティスを革命化するAIOps(ITオペレーションのための人工知能)の変革的な可能性を発見してください

データサイエンス

生成AIモデル:マーチャンダイジング分析のユーザーエクスペリエンス向上

私たちのデータプラットフォームで利用可能なデータについて、ビジネスユーザーが何でも尋ねることができるように、生成型AI...

AIニュース

「OpenAIやLM Studioに頼らずにAutoGenを使用する方法」

イントロダクション OpenAIやLMスタジオに頼らずに、あなた自身のAIチームを作成する準備はできていますか?もはや銀行を荒ら...

機械学習

「AIと産業のデジタル化の時代に、開かれたUSDに開発者が注目」 Note OpenUSD refers to an open-source software library called USD (Universal Scene Description), which is commonly used in computer graphics and animation.

スマートファクトリーから次世代の鉄道システムまで、世界中の開発者と企業は、あらゆるスケールで産業のデジタル化の機会を...

人工知能

「ChatGPTを金融業務に活用する10の方法」

イントロダクション AIの登場により、ビジュアルの作成からプレゼンテーションの形成まで、産業全体に変革をもたらしています...