拡張版:NVIDIAがビデオ編集のためのMaxineを拡大し、3D仮想会議の研究を披露

NVIDIA expands Maxine for video editing and showcases 3D virtual meeting research.

プロフェッショナル、チーム、クリエイターなどは、NVIDIA Maxineの助けを借りて、標準のマイクやウェブカメラを使用しても高品質なオーディオやビデオの効果を作成するためにAIの力を活用することができます。

GPUアクセラレートされたソフトウェア開発キットとクラウドネイティブなマイクロサービスのスイートを使用することで、ユーザーはリアルタイム通信サービスやプラットフォームのためにオーディオ、ビデオ、拡張現実の効果を向上させるAI機能を展開することができます。Maxineはまた、ビデオ編集の機能も拡張し、チームがビデオコミュニケーションで新たな高みに到達することを可能にします。

さらに、NVIDIAの研究デモでは、AIが3D機能を備えたビデオ会議を次のレベルに引き上げる方法をSIGGRAPHカンファレンスで紹介しています。

NVIDIA Maxineの機能がビデオ編集に拡大

無線接続のおかげで、人々は以前よりもさまざまな場所から仮想会議に参加することができるようになりました。通常、通話者が移動中であるか、接続が不良な場所にいる場合、音声とビデオの品質は大きく影響を受けます。

背景ノイズ除去、スーパーレゾリューション、アイコンタクトなどのリアルタイムのMaxineの高度な機能により、リモートユーザーは人とのコミュニケーション体験を向上させることができます。

さらに、Maxineは現在ビデオ編集にも使用できます。NVIDIAのパートナーは、ビデオ会議を高めるMaxineの同じ機能でこのプロフェッショナルワークフローを変革しています。セールスプレゼンテーションやウェビナーなどのビデオを編集する際の目標は、可能な限り広い観客に魅力を伝えることです。Maxineを使用することで、プロフェッショナルはオーディオとビデオの信号を向上させるAI機能を利用することができます。

Maxineを使用することで、スポークスパーソンは画面から目を離してノートや台本を参照することができますが、彼らの視線はまるで直接カメラを見ているかのように保たれます。ユーザーは低解像度でビデオを撮影し、後で品質を向上させることもできます。さらに、Maxineを使用すると、人々はさまざまな言語でビデオを録画し、英語で出力することができます。

今年のアーリーアクセスでリリースされるMaxineの機能には、以下が含まれます:

  • 通訳:簡体字中国語、ロシア語、フランス語、ドイツ語、スペイン語から英語に翻訳し、ユーザーのイメージをアニメーション化して英語を話しているように表示します。
  • 音声フォント:スピーカーの音声の特性を適用し、オーディオ出力にマッピングすることができます。
  • オーディオスーパーレゾリューション:オーディオ信号の時間分解能と帯域幅を増加させることで、音声の品質を向上させます。現在、8,000Hzから16,000Hzへのアップサンプリングと16,000Hzから48,000Hzへのアップサンプリングをサポートしています。この機能は、レイテンシを50%以上削減し、スループットを2倍向上させるアップデートも行われています。
  • Maxineクライアント:MaxineのマイクロサービスのAI機能をPCのビデオ会議セッションにもたらします。このアプリケーションは低レイテンシのストリーミングに最適化されており、すべてのGPUコンピュート要件にクラウドを使用します。Thin Clientはこの秋にWindowsで利用可能になり、その他のOSサポートも続く予定です。

Maxineはクラウド、オンプレミス、エッジで展開することができるため、ほぼどこからでもクオリティの高いコミュニケーションが可能です。

ビデオ会議を新たな高みに

多くのパートナーと顧客がMaxineを使用して高品質なビデオ会議や編集を体験しています。Maxineの2つの機能であるEye ContactとLive Portraitは、現在NVIDIA AI Enterpriseソフトウェアプラットフォームの製品リリースで利用可能です。Eye Contactは、ユーザーの視線をカメラと一致させることで、カメラとの直接的な視線接触をシミュレートします。また、Live Portraitは、人物のポートレート写真をライブビデオフィードを通じてアニメーション化します。

ソフトウェア会社Descriptは、ドキュメントやスライドと並んでビデオをコミュニケーターのツールキットの一部とすることを目指しています。NVIDIA Maxineを使用することで、Descriptを使用するプロフェッショナルや初心者は、ビデオコンテンツのワークフローを改善するAI機能にアクセスすることができます。

Descriptのビジネスおよび企業開発責任者であるJay LeBoeuf氏は、「NVIDIA Maxine Eye Contact機能を使用することで、ユーザーはスクリプトの覚え込みや煩雑なビデオのリテイクを心配する必要がなくなります」と述べています。「彼らは完璧な画面上の存在感を保ちながら、いつでもスクリプトを完璧に演じることができます。」

ReincubateのCamoアプリは、既存のハードウェアとデバイスを活用して優れたビデオへのアクセスを広げることを目指しています。これは、ユーザーが自分のイメージをより制御できるようにし、ビデオの効果と変換のための強力で効率的な処理パイプラインを実装することで実現しています。NVIDIA Maxineが可能にする技術を使用することで、Camoは信じられないほどのビデオ作成の方法をユーザーに提供することができます。

Reincubateの創設者兼CEOであるAidan Fitzpatrick氏は、「NVIDIA MaxineをCamoに統合することは非常に簡単であり、チームはすぐにユーザーのRTX GPUから高性能を引き出すことができました」と述べています。「Maxineを使用することで、チームはより速く、より自信を持って進むことができました。」

QuicklinkのCre8は、プロフェッショナルでブランドに沿った映像制作プラットフォームであり、バーチャルやハイブリッドのライブイベントを作成するための強力なツールです。使いやすいインターフェースは直感的なデザインと組み合わされており、プロフェッショナルな制作物を構築、編集、カスタマイズするために必要なすべてのツールを備えています。Cre8はNVIDIA Maxineテクノロジーを組み込んでおり、オペレーターに完全な制御を提供しながら、生産性と映像制作の品質を最大化します。

QuicklinkのCEOであるRichard Reesは、「Quicklink Cre8は現在、地球上で最も高度な映像制作プラットフォームを提供しています。」と述べています。「NVIDIA Maxineを使用することで、自動フレーミング、ビデオノイズ除去、ノイズとエコーキャンセレーション、アイトラッキングシミュレーションなどの高度な機能を追加することができました。」

ロサンゼルスを拠点とするgemelo.aiは、ユーザーの声、コンテンツ、インタラクションをスケーリングするAIツインを作成するプラットフォームを提供しています。MaxineのLive Portrait機能を使用することで、gemelo.aiチームはスケーリングされたパーソナライズされたコンテンツと一対一のインタラクションの新たな可能性を開くことができます。

gemelo.aiのCEOであるPaul Jaskiは、「Live Portraitのリアリズムはゲームチェンジャーであり、AIツインの新たな可能性を開拓しました。」と述べています。「私たちの顧客は、アプリ、ウェブサイト、ミックスドリアリティの体験などでコンテンツ制作とインタラクションのスケーリングのスーパーパワーを持つ信じられないほどリアルなデジタルツインを設計・展開できるようになりました。」

NVIDIAの研究が示す3Dビデオが没入型のコミュニケーションをどのように向上させるか

Maxineの高度な機能を提供するだけでなく、NVIDIAのAIは3Dでビデオコミュニケーションを向上させます。NVIDIAの研究チームは最近、AIが最小限のキャプチャ機器で3Dビデオ会議システムを駆動する方法を紹介する論文を公開しました。

3Dテレプレゼンスシステムは通常、高価で大きなスペースや制作スタジオが必要であり、高帯域幅のボリューメトリックビデオストリーミングを使用します。これらの制約により、この技術のアクセシビリティが制限されます。NVIDIAの研究チームは、標準のウェブカメラから2Dビデオ入力を受け取り、それを3Dビデオ表現に変換する新しいメソッドを共有しました。会議の参加者間で3Dデータを往復させる必要がなくなり、AIによって通話の帯域幅要件が2D会議と同じままになります。

この技術は、ユーザーの2Dビデオを取り込み、ボリューメトリックレンダリングを使用してニューラルラディアンスフィールド(NeRF)と呼ばれる3D表現を自動的に作成します。その結果、参加者は従来のビデオ会議と同様に2Dビデオをストリーミングできながら、リアルタイムでレンダリング可能な高品質な3D表現をデコードすることができます。そして、MaxineのLive Portraitにより、ユーザーは自分の肖像を3Dで生き生きとさせることができます。

AIを介した3Dビデオ会議は、3Dキャプチャのコストを大幅に削減し、高品質な3D表現を提供し、写真のようなリアルなアバターやスタイリッシュなアバターを収容し、ビデオ会議での相互のアイトラッキングを可能にすることができます。関連する研究プロジェクトは、AIがコミュニケーションや仮想インタラクションを向上させる方法を示し、将来のNVIDIAのビデオ会議技術に情報を提供しています。

以下でシステムの実際の動作をご覧ください。SIGGRAPHの参加者は、ニューヨークを拠点とするLooking Glass社が設計した3Dディスプレイ上でライブデモを同時に視聴できるEmerging Technologiesブースを訪れることができます。

入手可能性

NVIDIA Maxineについての詳細は、現在NVIDIA AI Enterpriseでご利用いただけます。

また、3Dビデオ会議プロジェクトの背後にある研究についてもっと詳しくご覧ください。

注目画像はNVIDIA Researchから提供されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「8月号:データサイエンティストのための夏の読書」

「魅力的な夏の読書とは何か再評価する時期でしょうか?私たちはそう考えています常識的な知恵(そして多くのマーケティング...

AIニュース

「解説者に続いて、ウィンブルドンでAIがライン審判を置き換える可能性がある」

ウィンブルドンは、豊かな伝統と名声あるテニスの試合で知られており、ゲームを革命化する可能性のある大きな変化を検討して...

データサイエンス

オッターに会いましょう:大規模データセット「MIMIC-IT」を活用した最先端のAIモデルであり、知覚と推論のベンチマークにおいて最新の性能を実現しています

マルチファセットモデルは、書かれた言語、写真、動画などの様々なソースからのデータを統合し、さまざまな機能を実行するこ...

データサイエンス

医療における臨床家と言語モデルのギャップを埋めるために:電子医療記録の指示に従うための臨床家によって作成されたデータセット、MedAlignに会いましょう

Large Language Models(LLMs)は自然言語処理の能力を大いに活用しています。言語生成や推論から読解まで、LLMsは何でもこな...

機械学習

「分かれれば倒れ、一緒に立つ:CoTrackerは、ビデオ内の複数のポイントを共同で追跡するAIアプローチです」

I had trouble accessing your link so I’m going to try to continue without it. 近年、AIの領域で画像生成と大規模...

AI研究

GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です

生成型人工知能の分野は、当然の注目を浴びています。テキストから画像へのパーソナライゼーションの最近の進展は、革新的な...