このAI論文では、既知のカメラパラメータなしで新しい視点合成を行うために、COLMAP-Free 3D Gaussian Splatting(CF3DGS)を提案しています

「既知のカメラパラメータなしで新しい視点合成を実現するための提案 COLMAP-Free 3D Gaussian Splatting(CF3DGS)」

ニューラルレンダリングの進歩により、シーンの再構築や新しい視点の生成において重要なブレイクスルーがもたらされました。しかし、その効果はカメラの姿勢の正確な予備計算に大きく依存します。この問題を最小化するために、事前計算されたカメラの姿勢がないNeural Radiance Fields(NeRFs)を訓練するためにさまざまな取り組みが行われています。しかし、NeRFsの暗黙的な表現は、3Dの構造とカメラの姿勢を同時に最適化するのが困難です。

UCサンディエゴ、NVIDIA、UCバークレーの研究者らは、COLMAP-Free 3D Gaussian Splatting(CF-3DGS)を導入しました。これは、ビデオの時間的な連続性と明示的なポイントクラウド表現の2つの重要な要素を高めています。すべてのフレームを一度に最適化するのではなく、CF-3DGSはカメラが移動するにつれてシーンの3Dガウスを連続的な形で「成長させる」一つの構造を構築します。CF-3DGSは各フレームに対してローカルな3Dガウスセットを抽出し、全体のシーンのグローバルな3Dガウスセットを維持します。

https://arxiv.org/abs/2312.07504

リアルな画像を視点から生成するためにさまざまな3Dシーン表現が使用されており、平面、メッシュ、ポイントクラウド、マルチプレーンイメージなどが含まれます。NeRFs(Neural Radiance Fields)は、その写真のようなリアルなレンダリング能力のために、この分野で注目を集めています。3DGS(3D Gaussian Splatting)メソッドは、純粋な明示的な表現と微分を利用したポイントベースのスプラッティング方法を使用して、ビューのリアルタイムレンダリングを可能にします。

CF-3DGSは既知のカメラパラメータを必要としないで合成ビューを実現します。それは3D Gaussian Splatting(3DGS)とカメラの姿勢を同時に最適化します。近くのフレームから相対カメラ姿勢を推定するためにローカルな3DGSメソッドを使用し、未観測のビューから3Dガウスを進行的に展開するためにグローバルな3DGSプロセスを使用しています。CF-3DGSは、明示的なポイントクラウドを使用してシーンを表現し、3DGSの機能とビデオストリームに固有の連続性を活用します。このアプローチは、入力フレームを順次処理し、3Dガウスを進行的に展開してシーンを再構築します。この手法により、トレーニングと推論の速度が高速化されます。

https://arxiv.org/abs/2312.07504

CF-3DGSメソッドは、先行の最先端技術よりもポーズ推定の耐性が高く、新規ビューの合成品質も優れています。この手法は、より複雑で挑戦的なカメラの動きを示すCO3Dビデオで検証され、ビューの合成品質においてNope-NeRFメソッドを上回る結果を示しました。このアプローチは、CO3D V2データセットにおいてすべてのメトリックでNope-NeRFeをしのぎ、特に複雑なカメラの動きがあるシナリオでのカメラの姿勢推定の耐性と精度を示しています。

まとめると、CF-3DGSはビデオの時間的な連続性と明示的なポイントクラウド表現を利用してビューを効果的かつ堅牢に合成する方法です。この方法は、主にビデオストリームや順序付けられた画像コレクションに適しており、Structure-from-Motion(SfM)前処理の必要はありません。また、非順序の画像コレクションに対応するための将来の拡張の可能性もあります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

聴覚処理の解読:深層学習モデルが脳内の音声認識とどのように類似しているか

研究によると、聴覚データを言語的表現に変換する計算は、声の知覚に関与しています。誰かが音声を聞くと、聴覚経路が活性化...

機械学習

PyTorch LSTM — 入力、隠れ状態、セル状態、および出力の形状

「PyTorchでは、LSTM(nn.LSTM()を使用)を使用するために、入力時系列を表すテンソル、隠れ状態ベクトル、セル状態ベクトル...

AIニュース

OpenAIがグローバルイルミネーションを引き継ぎ、初の企業買収を祝います

テック界に波紋を広げる動きとして、人工知能の先駆的存在であるOpenAIが、初の買収に乗り出しました。OpenAIがデジタルプロ...

AI研究

スタンフォードの研究者たちはPLATOを発表しました:知識グラフに拡張された正則化を用いた高次元、低サンプルの機械学習の過適合に取り組むための斬新なAIアプローチ

ナレッジグラフ(KG)は、ノードとエッジとして情報を格納するグラフベースのデータベースです。一方、マルチレイヤーパーセ...

人工知能

Midjourney v5.2の新しいズームアウト機能の使い方(最良の例)

Midjourney v5.2がリリースされ、期待を裏切りませんでしたズームアウト機能は素晴らしいです

AIニュース

「OpenAIのDevDay 2023がAIの発展とカスタマイズの新時代を公開」

OpenAIのDevDay 2023イベントで、人工知能の未来が魅力的な展開を見せるという画期的な発表シリーズが行われました。OpenAIは...