オックスフォード大学の研究者たちは、DynPointという人工知能アルゴリズムを開発しましたこのアルゴリズムは、自由な単眼ビデオの新しい視点を迅速に合成することを目的としています

「オックスフォード大学の研究者が開発した人工知能アルゴリズムDynPoint:自由な単眼ビデオにおける新たな視点合成のための革新」

コンピュータビジョンコミュニティは、画像合成(VS)に注力しており、それによって人工現実性を推進し、機械の視覚および幾何学的な特定シナリオの理解能力を向上させる潜在能力を持っています。ニューラルレンダリングアルゴリズムを利用した先進的な手法により、静的シーンの写真のような再構築が実現されています。ただし、動的な要素を持つ実世界のシナリオでは、エピポーラ幾何学的な関係に依存する現在の手法は適しておらず、これらの方法には課題が存在します。

最近の研究は、1つ以上のマルチレイヤーパーセプトロン(MLP)を使用して動的な環境でのビュー合成に主に焦点を当てています。ある手法では、ターゲットビデオのフレームレベルまで包括的な潜在表現を生成します。ただし、MLPや他の表現手法のメモリ容量の制約により、この手法の適用範囲は短いビデオに制限されますが、視覚的に正確な結果を提供する能力はあります。

この制約に対処するために、オックスフォード大学の研究者はDynPointを提案しました。このユニークな手法では、長い単眼ビデオからビューを効率的に生成するために、潜在的なカノニカル表現を学習する必要はありません。DynPointは、表面点の一貫性のある深度とシーンフローを明示的に推定する方法を採用し、情報を暗黙的にエンコードする従来の手法とは異なります。これらの推定値を使用して、複数の参照フレームの情報をターゲットフレームに組み合わせます。その後、この収集したデータから階層的なニューラルポイントクラウドが構築され、この階層的なポイントクラウドを使用してターゲットフレームのビューが合成されます。

この統合プロセスは、ターゲットフレームと参照フレーム間の対応を学習し、深さとシーンフローの推論によって支援されます。単眼ビデオ内でターゲットフレームの迅速な合成を可能にするために、研究者は参照フレームからターゲットフレームに情報を集約するための表現を提供しています。Nerfie、Nvidia、HyperNeRF、iPhone、Davisなどのデータセット上でDynPointの合成速度と精度の評価が行われており、実験結果によってその優れた性能が証明されています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ソフトウェア開発者のための機械学習フレームワークの探求」

この記事では、ソフトウェア開発における機械学習フレームワークの重要性を探求し、人気のあるフレームワークについての洞察...

機械学習

スピードは必要なすべてです:GPU意識の最適化による大規模拡散モデルのオンデバイス加速化

コアシステム&エクスペリエンスのソフトウェアエンジニアであるJuhyun LeeとRaman Sarokinによる投稿 画像生成のための大...

データサイエンス

「マインドのための宇宙船」:フロリダ大学がマラコフスキーホールを開設、AIおよびデータサイエンスのエピセンターに

人工知能(AI)と学界の融合を具現化するため、フロリダ大学は金曜日にデータサイエンス&情報技術のマラチョウスキーホール...

AI研究

スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています

我々は皆、ChatGPTやBardなどの驚異的な生成モデル、およびそれらの基盤技術であるGPT3やGPT4などの開発競争がAI界を大きく揺...

機械学習

「GiskardはHuggingFaceにGiskard Botをリリースします:HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

2023年11月8日に発表された画期的な開発では、Giskard Botが機械学習(ML)モデルのゲームチェンジャーとして登場し、大規模...