Search Results A

SDFStudio（エスディーエフスタジオ）は、Nerfstudioプロジェクトの上に構築された、ニューラル暗黙的表面再構築のための統一されたモジュラーフレームワークです

ここ数年、特に表面再構築において、いくつかのコンピュータビジョンおよびコンピュータグラフィックス関連分野で急速な進歩がありました。 3Dスキャンにおけるこの変化し続ける分野の主な目標は、特定の品質基準を満たしながら、与えられた点群から効率的に表面を再現することです。これらのアルゴリズムは、与えられた点群データに基づいて、スキャンされたオブジェクトの表面の基礎的なジオメトリを推定することを目指しています。その表面は、可視化、バーチャルリアリティ、コンピュータ支援設計、医療画像など、さまざまな目的に活用することができます。表面再構築の最もよく知られた手法には、自己組織化マップ、ベイジアン再構築、ポアソン再構築などがあります。表面再構築は3Dスキャンの重要な要素であるため、非教師あり機械学習を使用した3Dスキャンからの表面再構築のためのさまざまな適切な技術を開発するために、大規模な研究が進行しています。この方向性を踏まえて、チュービンゲン大学、ETHチューリッヒ、チェコ工科大学プラハの多様な研究者グループが協力して、SDFStudioという統一された多機能ツールを開発しました。このフレームワークは、主にニューラルラジアンスフィールド（NeRF）の作成、トレーニング、視覚化プロセスを効率化するAPIを提供するnerfstudioプロジェクトの上に構築されています。実装の一環として、開発者は3つの主要な表面再構築手法を使用しています：UniSurf、VolSDF、およびNeuS。 UniSurfは、非組織化点群から滑らかな表面表現を生成することを目指す表面再構築手法であり、暗黙的な関数と多角形メッシュを組み合わせています。一方、VolSDFは、入力点群のボリューメトリック表現を活用する表面再構築手法です。 NeuSは、深層ニューラルネットワークを利用して、点群から表面表現を生成する表面再構築手法であり、暗黙的な表面表現と学習ベースの手法の両方の特性を組み合わせています。さまざまなシーン表現と表面再構築技術をサポートするために、SDFStudioはキーとなる表現として符号付き距離関数（SDF）を使用しており、この関数の等値面を表面と定義しています。 SDFStudioは、マルチレイヤーパーセプトロン（MLP）、トライプレーン、およびマルチレス機能グリッドなど、さまざまな技術を使用してSDFを推定します。これらの技術は、シーン内の異なる場所で符号付き距離または占有値を推定するために、ニューラルネットワークと特徴グリッドを利用しています。精度と効率をさらに向上させるために、このツールはさまざまなポイントサンプリング戦略を組み込んでおり、その一つがUniSurfの方法に着想を得たサーフェスガイドサンプリングです。さらに、SDFStudioはNeuralReconWの手法から派生したボクセルサーフェスガイドサンプリングも使用しています。この手法は、ボクセルグリッドの情報を活用してサンプリングプロセスを誘導し、生成されるポイントがオブジェクトの表面上にある可能性が高くなるようにします。このようなサンプリング技術を取り入れることで、SDFStudioは生成されるポイントサンプルが基礎となる表面を代表するものであり、再構築された表面の品質と精度が向上することを保証します。 SDFStudioの特筆すべき特徴の一つは、異なる手法間でのアイデアや技術の移植を容易にする統一されたモジュラーな実装を提供していることです。たとえば、Mono-NeuSからNeuSへのアイデアの移植が見られます。 Geo-VolSDFでは、Geo-NeuSからのアイデアをVolSDFに組み込んでいます。 SDFStudioで異なる手法間でアイデアを移植できる能力は、研究者が異なる組み合わせを試し、あるプロセスからインスピレーションを得て別のプロセスに統合することで、表面再構築の進歩を促進します。 SDFStudioをすばやく始めるには、GitHubリポジトリで利用可能なセットアップ手順に従ってください。

もし、口頭および書面によるコミュニケーションが人間の知能を発展させたのであれば… 言語モデルは一体どうなっているのでしょうか？

人間の知能は、その非凡な認知能力によって、他の種に比べて比類のない存在ですこの知的優位性の原動力は、言語の出現に遡ることができます...

合成データとは何ですか？

合成データは、率直に言って、偽のデータですつまり、あなたが興味を持っている人口から実際に得られたデータではありません（人口は、ここで説明するデータサイエンスの専門用語です）それは...

Webスケールトレーニング解放：DeepMindがOWLv2とOWL-STを紹介、未知語彙物体検出の革新的ツール、前例のない自己学習技術によって駆動されます

オープンボキャブラリーの物体検出は、さまざまな実世界のコンピュータビジョンタスクにおいて重要な要素です。ただし、検出トレーニングデータの入手の制約と、事前学習モデルの脆弱性により、性能が劣り、スケーラビリティの問題が生じることが多いです。この課題に対処するため、DeepMindの研究チームは最新の論文「Scaling Open-Vocabulary Object Detection」で、最適化されたアーキテクチャであるOWLv2モデルを紹介しています。このモデルはトレーニング効率を改善し、OWL-STセルフトレーニングの手法を組み込んで検出性能を大幅に向上させ、オープンボキャブラリー検出タスクでの最先端の結果を達成します。この研究の主な目的は、ラベルスペース、注釈フィルタリング、およびオープンボキャブラリー検出セルフトレーニング手法のトレーニング効率を最適化し、限られたラベル付きデータで堅牢でスケーラブルなオープンボキャブラリー性能を実現することです。提案されたセルフトレーニング手法は、次の3つの主要なステップで構成されています：チームは既存のオープンボキャブラリー検出器を使用して、WebLIという大規模なウェブ画像テキストペアのデータセットでオープンボックス検出を行います。彼らはOWL-ViT CLIP-L/14を使用して、すべてのWebLI画像に境界ボックスの疑似注釈を付けます。彼らは、人間による注釈付けされた検出データを使用してトレーニングモデルを微調整し、パフォーマンスをさらに向上させます。特筆すべきは、研究者がより効果的な検出器を訓練するために、OWL-ViTアーキテクチャのバリアントを使用していることです。このアーキテクチャは、コントラストトレーニングされた画像テキストモデルを利用して画像とテキストのエンコーダを初期化し、検出ヘッドはランダムに初期化されます。トレーニングの段階では、チームは同じ損失関数を使用し、OWL-ViTアーキテクチャから「疑似ネガティブ」をクエリに追加して、利用可能なラベル付き画像の利用を最大化するためにトレーニング効率を最適化します。さらに、大規模Transformerトレーニングのために以前に提案された手法を組み込んで、トレーニング効率をさらに向上させます。その結果、OWLv2モデルは、元のOWL-ViTモデルに比べてトレーニングFLOPSを約50％削減し、トレーニングスループットを2倍に加速します。チームは実証的な研究で、提案手法を以前の最先端のオープンボキャブラリー検出器と比較しています。OWL-ST技術により、LVISの稀なクラスの平均精度（AP）が31.2％から44.6％に向上します。さらに、OWL-STレシピをOWLv2アーキテクチャと組み合わせることで、新たな最先端のパフォーマンスが実現されます。全体的に、本論文で提案されたOWL-STレシピは、大規模なウェブデータからの弱教師付き学習を活用して検出性能を大幅に向上させ、オープンワールドの位置特定におけるウェブスケールのトレーニングを実現します。この手法は、ラベル付き検出データの希少性による制約に対処し、堅牢なオープンボキャブラリー物体検出のスケーラブルな手法の可能性を示しています。