MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の先駆的な進化

MetaがEmuビデオとEmu編集を発表:テキストからビデオ生成と精密画像編集の最新進化

急速に進化する生成AIの分野では、効率的で高品質なビデオ生成モデルや正確で多目的な画像編集ツールの実現に向けて課題が残されています。従来の方法では、モデルの複雑な連鎖や過剰な修正への支援が必要となることが多く、その有効性が制限されています。メタAIの研究者は、これらの課題に対処するために、2つの画期的な進展である「Emu Video」と「Emu Edit」を紹介しています。この2つの画期的な進展により、高品質なビデオ生成の新たな基準が設定され、以前の研究を上回る成果が出ています。

現在のテキストからビデオを生成する手法では、多数のモデルの連鎖を必要とし、膨大な計算リソースを要求します。Emu Videoは、基礎となるEmuモデルを拡張したもので、プロセスを効率化するための因子分解手法を導入しています。これにより、テキストのプロンプトに基づいた画像生成、およびテキストと生成された画像に基づいたビデオ生成が行われます。この手法の簡易性により、わずか2つの拡散モデルだけで高品質のビデオ生成が実現され、以前の研究を凌駕しています。

一方、従来の画像編集ツールは、ユーザーが正確な制御ができるように改良される必要があります。

Emu Editは、領域ベースの編集やフリーフォームの編集など、さまざまな画像編集タスクを処理するマルチタスクの画像編集モデルです。また、検出やセグメンテーションといった重要なコンピュータビジョンのタスクも同時に処理します。

Emu Videoの因子分解アプローチはトレーニングを効率化し、印象的な結果をもたらします。たった2つの拡散モデルで512×512の4秒間のビデオを毎秒16フレーム生成することは、大きな進歩です。ヒューマン評価では、Emu Videoが以前の研究に優れているとの一貫した評価がされ、ビデオの品質とテキストの指示への忠実度の両方で優れた性能を発揮しています。さらに、このモデルはユーザー提供の画像をアニメーション化する能力も備えており、この領域で新たな基準を設定しています。

Emu Editのアーキテクチャは、マルチタスク学習に最適化されており、さまざまな画像編集タスクに適応性を示しています。学習されたタスク埋め込みの導入により、編集の指示の実行において精密な制御が可能となっています。Few-shotの適応実験では、Emu Editが新しいタスクに素早く適応できることが示されており、限られたラベル付きの例や計算リソースのある状況で有利です。Emu Editとともにリリースされたベンチマークデータセットにより、命令の忠実度と画像の品質で優れたモデルとして位置づけられています。

結論として、Emu VideoとEmu Editは生成AIの革新的な飛躍を表しています。これらのイノベーションは、テキストからビデオを生成する方法と命令に基づいた画像編集の課題に取り組み、合理化されたプロセス、優れた品質、および前例のない適応性を提供しています。魅力的な動画を作成するから正確な画像編集を実現するまで、これらの進歩が創造的な表現に与える深い影響を強調しています。ユーザー提供の画像をアニメーション化したり、複雑な画像編集を実行したりすることで、Emu VideoとEmu Editはユーザーが新たに制御と創造性を持って自己表現するためのエキサイティングな可能性を開放します。

EMU Videoの論文:https://emu-video.metademolab.com/assets/emu_video.pdf

EMU Editの論文:https://emu-edit.metademolab.com/assets/emu_edit.pdf

この記事は、MetaがEmu VideoとEmu Editを発表:テキストからビデオ生成と精密画像編集の先駆的な進歩で最初に掲載されました。メイン記事:MarkTechPost

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

トップ10の生成AI 3Dオブジェクトジェネレーター

高性能なAI 3Dオブジェクトジェネレータにより、3Dモデルの作成と可視化がより正確かつアクセスしやすく効率的になりました。...

機械学習

ベイズ深層学習への優しい入門

「確率的プログラミングの興奮する世界へようこそ!この記事は初心者向けのベイズ深層学習とディープニューラルネットワーク...

AI研究

イェール大学とGoogle DeepMindの研究者は、大規模な言語モデルに対する高度な微調整技術を使用して数学の問題解決の成功を解き明かしました

“`html 最も先進的な大型言語モデル(LLMs)であるGPT-4やPaLM 2でも、数学の問題を解くのは困難です。なぜなら、それ...

AI研究

シャージャ大学の研究者たちは、アラビア語とその方言を自然言語処理に取り入れるための人工知能ソリューションを開発しました

アラビア語は4億2200万人以上の国民の公用語であり、世界で5番目に広く使用されています。しかし、自然言語処理ではほとんど...

データサイエンス

「動きのあるAIトレンドに対応するAPI戦略の適応」

AIは最近注目を集めていますこの記事では、APIを使用して製品を開発している私たちにとって、AIのトレンドがどういう意味を持...

データサイエンス

アマゾンの研究者は、深層学習を活用して複雑な表形式のデータ分析におけるニューラルネットワークを強化します

ニューラルネットワークは、異質なカラムを持つ表形式のデータに直面するときに、現代計算の驚異として、重要なハードルに直...