拡張版:NVIDIAがビデオ編集のためのMaxineを拡大し、3D仮想会議の研究を披露
NVIDIA expands Maxine for video editing and showcases 3D virtual meeting research.
プロフェッショナル、チーム、クリエイターなどは、NVIDIA Maxineの助けを借りて、標準のマイクやウェブカメラを使用しても高品質なオーディオやビデオの効果を作成するためにAIの力を活用することができます。
GPUアクセラレートされたソフトウェア開発キットとクラウドネイティブなマイクロサービスのスイートを使用することで、ユーザーはリアルタイム通信サービスやプラットフォームのためにオーディオ、ビデオ、拡張現実の効果を向上させるAI機能を展開することができます。Maxineはまた、ビデオ編集の機能も拡張し、チームがビデオコミュニケーションで新たな高みに到達することを可能にします。
さらに、NVIDIAの研究デモでは、AIが3D機能を備えたビデオ会議を次のレベルに引き上げる方法をSIGGRAPHカンファレンスで紹介しています。
NVIDIA Maxineの機能がビデオ編集に拡大
無線接続のおかげで、人々は以前よりもさまざまな場所から仮想会議に参加することができるようになりました。通常、通話者が移動中であるか、接続が不良な場所にいる場合、音声とビデオの品質は大きく影響を受けます。
- Airbnbの研究者がChrononを開発:機械学習モデルの本番用機能を開発するためのフレームワーク
- NVIDIAとテルアビブ大学の研究者が、効率的な訓練時間を持つコンパクトな100 KBのニューラルネットワーク「Perfusion」を紹介しました
- 「タンパク質設計の革命:ディープラーニングの改良により成功率が10倍に向上したこのAI研究」
背景ノイズ除去、スーパーレゾリューション、アイコンタクトなどのリアルタイムのMaxineの高度な機能により、リモートユーザーは人とのコミュニケーション体験を向上させることができます。
さらに、Maxineは現在ビデオ編集にも使用できます。NVIDIAのパートナーは、ビデオ会議を高めるMaxineの同じ機能でこのプロフェッショナルワークフローを変革しています。セールスプレゼンテーションやウェビナーなどのビデオを編集する際の目標は、可能な限り広い観客に魅力を伝えることです。Maxineを使用することで、プロフェッショナルはオーディオとビデオの信号を向上させるAI機能を利用することができます。
Maxineを使用することで、スポークスパーソンは画面から目を離してノートや台本を参照することができますが、彼らの視線はまるで直接カメラを見ているかのように保たれます。ユーザーは低解像度でビデオを撮影し、後で品質を向上させることもできます。さらに、Maxineを使用すると、人々はさまざまな言語でビデオを録画し、英語で出力することができます。
今年のアーリーアクセスでリリースされるMaxineの機能には、以下が含まれます:
- 通訳:簡体字中国語、ロシア語、フランス語、ドイツ語、スペイン語から英語に翻訳し、ユーザーのイメージをアニメーション化して英語を話しているように表示します。
- 音声フォント:スピーカーの音声の特性を適用し、オーディオ出力にマッピングすることができます。
- オーディオスーパーレゾリューション:オーディオ信号の時間分解能と帯域幅を増加させることで、音声の品質を向上させます。現在、8,000Hzから16,000Hzへのアップサンプリングと16,000Hzから48,000Hzへのアップサンプリングをサポートしています。この機能は、レイテンシを50%以上削減し、スループットを2倍向上させるアップデートも行われています。
- Maxineクライアント:MaxineのマイクロサービスのAI機能をPCのビデオ会議セッションにもたらします。このアプリケーションは低レイテンシのストリーミングに最適化されており、すべてのGPUコンピュート要件にクラウドを使用します。Thin Clientはこの秋にWindowsで利用可能になり、その他のOSサポートも続く予定です。
Maxineはクラウド、オンプレミス、エッジで展開することができるため、ほぼどこからでもクオリティの高いコミュニケーションが可能です。
ビデオ会議を新たな高みに
多くのパートナーと顧客がMaxineを使用して高品質なビデオ会議や編集を体験しています。Maxineの2つの機能であるEye ContactとLive Portraitは、現在NVIDIA AI Enterpriseソフトウェアプラットフォームの製品リリースで利用可能です。Eye Contactは、ユーザーの視線をカメラと一致させることで、カメラとの直接的な視線接触をシミュレートします。また、Live Portraitは、人物のポートレート写真をライブビデオフィードを通じてアニメーション化します。
ソフトウェア会社Descriptは、ドキュメントやスライドと並んでビデオをコミュニケーターのツールキットの一部とすることを目指しています。NVIDIA Maxineを使用することで、Descriptを使用するプロフェッショナルや初心者は、ビデオコンテンツのワークフローを改善するAI機能にアクセスすることができます。
Descriptのビジネスおよび企業開発責任者であるJay LeBoeuf氏は、「NVIDIA Maxine Eye Contact機能を使用することで、ユーザーはスクリプトの覚え込みや煩雑なビデオのリテイクを心配する必要がなくなります」と述べています。「彼らは完璧な画面上の存在感を保ちながら、いつでもスクリプトを完璧に演じることができます。」
ReincubateのCamoアプリは、既存のハードウェアとデバイスを活用して優れたビデオへのアクセスを広げることを目指しています。これは、ユーザーが自分のイメージをより制御できるようにし、ビデオの効果と変換のための強力で効率的な処理パイプラインを実装することで実現しています。NVIDIA Maxineが可能にする技術を使用することで、Camoは信じられないほどのビデオ作成の方法をユーザーに提供することができます。
Reincubateの創設者兼CEOであるAidan Fitzpatrick氏は、「NVIDIA MaxineをCamoに統合することは非常に簡単であり、チームはすぐにユーザーのRTX GPUから高性能を引き出すことができました」と述べています。「Maxineを使用することで、チームはより速く、より自信を持って進むことができました。」
QuicklinkのCre8は、プロフェッショナルでブランドに沿った映像制作プラットフォームであり、バーチャルやハイブリッドのライブイベントを作成するための強力なツールです。使いやすいインターフェースは直感的なデザインと組み合わされており、プロフェッショナルな制作物を構築、編集、カスタマイズするために必要なすべてのツールを備えています。Cre8はNVIDIA Maxineテクノロジーを組み込んでおり、オペレーターに完全な制御を提供しながら、生産性と映像制作の品質を最大化します。
QuicklinkのCEOであるRichard Reesは、「Quicklink Cre8は現在、地球上で最も高度な映像制作プラットフォームを提供しています。」と述べています。「NVIDIA Maxineを使用することで、自動フレーミング、ビデオノイズ除去、ノイズとエコーキャンセレーション、アイトラッキングシミュレーションなどの高度な機能を追加することができました。」
ロサンゼルスを拠点とするgemelo.aiは、ユーザーの声、コンテンツ、インタラクションをスケーリングするAIツインを作成するプラットフォームを提供しています。MaxineのLive Portrait機能を使用することで、gemelo.aiチームはスケーリングされたパーソナライズされたコンテンツと一対一のインタラクションの新たな可能性を開くことができます。
gemelo.aiのCEOであるPaul Jaskiは、「Live Portraitのリアリズムはゲームチェンジャーであり、AIツインの新たな可能性を開拓しました。」と述べています。「私たちの顧客は、アプリ、ウェブサイト、ミックスドリアリティの体験などでコンテンツ制作とインタラクションのスケーリングのスーパーパワーを持つ信じられないほどリアルなデジタルツインを設計・展開できるようになりました。」
NVIDIAの研究が示す3Dビデオが没入型のコミュニケーションをどのように向上させるか
Maxineの高度な機能を提供するだけでなく、NVIDIAのAIは3Dでビデオコミュニケーションを向上させます。NVIDIAの研究チームは最近、AIが最小限のキャプチャ機器で3Dビデオ会議システムを駆動する方法を紹介する論文を公開しました。
3Dテレプレゼンスシステムは通常、高価で大きなスペースや制作スタジオが必要であり、高帯域幅のボリューメトリックビデオストリーミングを使用します。これらの制約により、この技術のアクセシビリティが制限されます。NVIDIAの研究チームは、標準のウェブカメラから2Dビデオ入力を受け取り、それを3Dビデオ表現に変換する新しいメソッドを共有しました。会議の参加者間で3Dデータを往復させる必要がなくなり、AIによって通話の帯域幅要件が2D会議と同じままになります。
この技術は、ユーザーの2Dビデオを取り込み、ボリューメトリックレンダリングを使用してニューラルラディアンスフィールド(NeRF)と呼ばれる3D表現を自動的に作成します。その結果、参加者は従来のビデオ会議と同様に2Dビデオをストリーミングできながら、リアルタイムでレンダリング可能な高品質な3D表現をデコードすることができます。そして、MaxineのLive Portraitにより、ユーザーは自分の肖像を3Dで生き生きとさせることができます。
AIを介した3Dビデオ会議は、3Dキャプチャのコストを大幅に削減し、高品質な3D表現を提供し、写真のようなリアルなアバターやスタイリッシュなアバターを収容し、ビデオ会議での相互のアイトラッキングを可能にすることができます。関連する研究プロジェクトは、AIがコミュニケーションや仮想インタラクションを向上させる方法を示し、将来のNVIDIAのビデオ会議技術に情報を提供しています。
以下でシステムの実際の動作をご覧ください。SIGGRAPHの参加者は、ニューヨークを拠点とするLooking Glass社が設計した3Dディスプレイ上でライブデモを同時に視聴できるEmerging Technologiesブースを訪れることができます。
入手可能性
NVIDIA Maxineについての詳細は、現在NVIDIA AI Enterpriseでご利用いただけます。
また、3Dビデオ会議プロジェクトの背後にある研究についてもっと詳しくご覧ください。
注目画像はNVIDIA Researchから提供されています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- AIモデルは、患者のがんがどこで発生したかを判断するのに役立つことができます
- UCバークレーの研究者は、Dynalangを紹介しますこれは、未来のテキストおよび画像表現を予測するためにマルチモーダルなワールドモデルを学習するAIエージェントであり、想像されたモデルのロールアウトからの行動を学習します
- MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム
- メタAIがオーディオジェネレーションに関するディープラーニングの研究のためのPyTorchライブラリであるAudioCraftをオープンソース化しました
- 新しいAI研究がMONAI Generative Modelsを紹介:研究者や開発者が簡単に生成モデルをトレーニング、評価、展開できるオープンソースプラットフォーム
- このAI研究では、全身ポーズ推定のための新しい2段階ポーズ蒸留を紹介しています
- このAI研究は、質問応答の実行能力において、指示に従うモデルの正確さと忠実さを評価します