Search Results 22

人間の注意力を予測するモデルを通じて、心地よいユーザーエクスペリエンスを実現する

Google Researchのシニアリサーチサイエンティスト、Junfeng He氏とスタッフリサーチサイエンティスト、Kai Kohlhoff氏による記事です。人間は、驚くほど多くの情報を取り入れる能力を持っています（網膜に入る情報は秒間約10 10ビット）。そして、タスクに関連し、興味深い領域に選択的に注目し、さらに処理する能力を持っています（例：記憶、理解、行動）。人間の注意（その結果として得られるものはしばしば注目モデルと呼ばれます）をモデル化することは、神経科学、心理学、人間コンピュータインタラクション（HCI）、コンピュータビジョンの分野で興味を持たれてきました。どの領域でも、どの領域でも、注目が集まる可能性が高い領域を予測する能力には、グラフィックス、写真、画像圧縮および処理、視覚品質の測定など、多数の重要な応用があります。以前、機械学習とスマートフォンベースの注視推定を使用して、以前は1台あたり3万ドルにも及ぶ専門的なハードウェアが必要だった視線移動の研究を加速する可能性について説明しました。関連する研究には、「Look to Speak」というアクセシビリティニーズ（ALSのある人など）を持つユーザーが目でコミュニケーションするのを支援するものと、「Differentially private heatmaps」という、ユーザーのプライバシーを保護しながら注目のようなヒートマップを計算する技術が最近発表されました。このブログでは、私たちはCVPR 2022からの1つの論文と、CVPR 2023での採用が決定したもう1つの論文、「Deep Saliency Prior for Reducing Visual Distraction」と「Learning from Unique Perspectives: User-aware…

デジタルルネッサンス：NVIDIAのNeuralangelo研究が3Dシーンを再構築

NVIDIA Researchによる新しいAIモデル、Neuralangeloは、ニューラルネットワークを使用して3D再構築を行い、2Dビデオクリップを詳細な3D構造に変換し、建物、彫刻、およびその他の現実世界のオブジェクトのリアルなバーチャルレプリカを生成します。ミケランジェロが大理石のブロックから驚くべきリアルなビジョンを彫刻したように、Neuralangeloは複雑なディテールと質感を持つ3D構造を生成します。クリエイティブなプロフェッショナルは、これらの3Dオブジェクトをデザインアプリケーションにインポートし、アート、ビデオゲーム開発、ロボット工学、および産業用デジタルツインに使用するためにさらに編集することができます。 Neuralangeloは、屋根の瓦、ガラスの板、滑らかな大理石などの複雑な素材の質感を、従来の手法を大幅に上回る精度で2Dビデオから3Dアセットに変換することができます。この高い信頼性により、開発者やクリエイティブなプロフェッショナルは、スマートフォンでキャプチャされた映像を使用してプロジェクトに使用できる仮想オブジェクトを迅速に作成できます。「Neuralangeloが提供する3D再構築機能は、クリエイターにとって大きな利益になります。現実世界をデジタル世界に再現するのを支援することで、開発者は小さな像や巨大な建築物などの詳細なオブジェクトを仮想環境にインポートできるようになります。」と、研究のシニアディレクターであり、論文の共著者でもあるMing-Yu Liu氏は述べています。デモでは、NVIDIAの研究者が、ミケランジェロのダビデ像やフラットベッドトラックなどといったアイコニックなオブジェクトを再現する方法を紹介しました。Neuralangeloは、建物の内部および外部も再構築することができ、NVIDIAのベイエリアキャンパスの公園の詳細な3Dモデルで実証されました。ニューラルレンダリングモデルが3Dで見る 3Dシーンを再構築するための以前のAIモデルは、繰り返しのテクスチャパターン、同質的な色、および強い色の変化を正確に捉えることができませんでした。Neuralangeloは、これらの微細なディテールを捉えるために、NVIDIA Instant NeRFの背後にある技術であるインスタントニューラルグラフィックスプリミティブを採用しています。さまざまな角度から撮影されたオブジェクトまたはシーンの2Dビデオを使用して、モデルは異なる視点を捉えたいくつかのフレームを選択します。これは、アーティストが対象を多角的に考慮して深度、サイズ、および形状を把握するのと同じです。フレームごとのカメラ位置が決定されたら、NeuralangeloのAIはシーンの大まかな3D表現を作成します。これは、彫刻家が主題の形を彫刻し始めるのと同じです。次に、モデルはレンダリングを最適化してディテールをシャープにします。これは、彫刻家が石を注意深く削って布の質感や人物の形を再現するのと同じです。最終的な結果は、仮想リアリティアプリケーション、デジタルツイン、またはロボット工学の開発に使用できる3Dオブジェクトまたは大規模なシーンです。 CVRPでNVIDIA Researchを見つける、6月18日〜22日 Neuralangeloは、6月18日から22日にバンクーバーで開催されるコンピュータビジョンとパターン認識のカンファレンス（CVRP）で発表されるNVIDIA Researchの約30のプロジェクトの1つです。これらの論文は、ポーズ推定、3D再構築、およびビデオ生成などのトピックをカバーしています。これらのプロジェクトの1つであるDiffCollageは、長いランドスケープ方向、360度パノラマ、およびループモーション画像を含む大規模なコンテンツを作成する拡散法です。標準的なアスペクト比の画像のトレーニングデータセットをフィードすると、DiffCollageはこれらの小さな画像をコラージュのピースのように扱い、より大きなビジュアルのセクションとして扱います。これにより、拡散モデルは、同じスケールの画像のトレーニングを必要とせずに、継ぎ目のない大規模なコンテンツを生成できるようになります。この技術は、テキストプロンプトをビデオシーケンスに変換することもできます。これは、人間の動きを捉える事前訓練された拡散モデルを使用して実証されました。 NVIDIA Researchについてもっと学ぶ。

新時代の幕開け：「エイジオブエンパイア」シリーズがGeForce NOWに参加、6月に20タイトルがリリース予定

暑い太陽と長い日々の季節がやってきました。そんな時は、6月にGeForce NOWに参加する20のゲームで、この夏は家の中にいましょう。また、プールで、おばあちゃんの家や車の中など、どこでもストリーミングできます。どちらの方法でも、GeForce NOWが対応します。次のXboxゲームとして、Age of EmpiresシリーズのタイトルがGeForce NOWに登場します。GeForce NOWライブラリの1,600以上のゲームの中から、この夏たくさん楽しむことができます。帝国を拡大する石器時代からクラウドまで。 NVIDIAは先月、Microsoftとの協力関係の一環として、最初のXboxゲームをクラウドにリリースしました。今度は、Ensemble StudiosのAge of Empiresシリーズのアクションゲームをクラウドに取り込む最初の人になりました。 1997年の最初のリリース以来、Age of Empiresは、最も長く続くリアルタイムストラテジーシリーズの1つとして確立されています。この高評価のRTSシリーズは、プレイヤーが拡大して繁栄する文明を目指して、帝国全体を制御することを目的としています。フランチャイズの最新のSteamバージョン4つが、GeForce NOWライブラリに後日追加されます。それぞれのタイトルは、Age of Empires: Definitive Edition、Age of…

フォトグラメトリとは何ですか？

「ストリートビュー」のおかげで、現代の地図ツールを使って、レストランを調べたり、周辺のランドマークを見て方向を確認したり、道路上にいるかのような体験をシミュレーションしたりすることができます。これらの3Dビューを作成するための技術は、フォトグラメトリと呼ばれます。つまり、画像をキャプチャして繋ぎ合わせて物理世界のデジタルモデルを作成するプロセスです。それはまるでジグソーパズルのようで、各ピースは画像で構成されます。そして、キャプチャされた画像が多ければ多いほど、3Dモデルはより現実的で詳細になります。フォトグラメトリの作業方法フォトグラメトリ技術は、建築や考古学などのさまざまな産業にも応用できます。例えば、フォトグラメトリの早い例の一つは、1849年にフランスの軍人アイメ・ローセダがテラストリアル写真を使用して、パリのイノディル旅館で最初の建築調査を行ったことです。可能な限り多くの領域や環境の写真を撮影して、チームは現場のデジタルモデルを構築して表示・分析することができます。 3Dスキャンは、シーン内のポイントの位置を測定するために構造化されたレーザー光を使用するのに対し、フォトグラメトリは実際の画像を使用してオブジェクトをキャプチャして3Dモデルに変換します。これは、良好なフォトグラメトリには良好なデータセットが必要であることを意味します。また、サイト、記念碑、または遺物のすべての領域がカバーされるように、正しいパターンで写真を撮ることが重要です。フォトグラメトリの種類今日、シーンを繋ぎ合わせたい場合、被写体の複数の角度から写真を撮影し、専用のアプリケーションで組み合わせてオーバーラップデータを抽出して3Dモデルを作成することができます。 3ds-scan.de提供のイメージ。フォトグラメトリには、空中フォトグラメトリと地上フォトグラメトリの2種類があります。空中フォトグラメトリは、カメラを空中に置いて上から写真を撮影することで、一般的には大きなサイトやアクセスが困難な場所で使用されます。空中フォトグラメトリは、林業や自然資源管理で地理情報データベースを作成するために最も広く使用されています。地上フォトグラメトリ、またはクローズレンジフォトグラメトリは、よりオブジェクトに焦点を当てたもので、手持ちのカメラまたは三脚に取り付けたカメラで撮影された画像に頼ることが多いです。これにより、現場でのデータ収集が迅速に行われ、より詳細な画像キャプチャが可能になります。 GPUを使用したフォトグラメトリワークフローの加速最も正確なフォトグラメトリの結果を得るには、チームは巨大な高精度のデータセットが必要です。より多くの写真を撮影すると、より正確で精密なモデルが得られます。ただし、大規模なデータセットは処理に時間がかかり、チームはファイルを処理するためにより多くのコンピュータパワーが必要です。 GPUの最新の進歩は、チームがこれを解決するのに役立ちます。NVIDIA RTXカードなどの高度なGPUを使用することで、ユーザーは処理を高速化し、より高精度なモデルを維持しながら、より大きなデータセットを入力することができます。例えば、建設チームは、建設現場の進捗状況を示すためにフォトグラメトリ技術を頼りにすることがよくあります。一部の企業は、サイトの画像をキャプチャして仮想的なウォークスルーを作成します。しかし、パワー不足のシステムはチョッピーな視覚体験をもたらし、クライアントやプロジェクトチームとの作業セッションから注意を逸らしてしまいます。 RTXプロフェッショナルGPUの大きなメモリを使用すると、建築家、エンジニア、デザイナーは巨大なデータセットを簡単に管理して、フォトグラメトリモデルをより速く作成・処理することができます。考古学者ダリア・ダバルは、NVIDIA RTXを使用して、遺物やサイトの高品質なモデルを作成・レンダリングするスキルを拡大しています。フォトグラメトリは、写真のベクトル化を支援するためにGPUパワーを使用するため、何千もの画像を繋ぎ合わせる作業を加速します。そして、RTXプロフェッショナルGPUのリアルタイムレンダリングとAI機能により、チームは3Dワークフローを加速し、フォトリアルなレンダリングを作成し、3Dモデルを最新の状態に保つことができます。フォトグラメトリの歴史と将来フォトグラメトリのアイデアは、写真術の発明の4世紀前の15世紀末にまで遡ります。レオナルド・ダ・ヴィンチは、透視と射影幾何学の原理を開発し、フォトグラメトリの基盤となる柱を築きました。…

Rendered.aiは、合成データの生成にNVIDIA Omniverseを統合します

Rendered.aiは、プラットフォームとして提供される合成データ生成（SDG）により、開発者、データサイエンティスト、その他の人々のAIトレーニングを簡素化しています。コンピュータビジョンAIモデルのトレーニングには、膨大で高品質で多様で偏りのないデータセットが必要です。これらを入手することは困難でコストがかかるため、AIの需要と供給の双方が増大する中で特に課題になります。 Rendered.aiのプラットフォームは、3Dシミュレーションから作成された物理的に正確な合成データを生成することにより、コンピュータビジョンモデルのトレーニングに役立ちます。「実世界のデータは、AIモデルを一般化するために必要なすべてのシナリオとエッジケースをキャプチャできないことがあり、それがAIおよび機械学習エンジニアにとってキーとなるSDGの場所です」と、シアトルの郊外であるベルビューに拠点を置くRendered.aiの創設者兼CEOであるNathan Kundtzは述べています。 NVIDIA Inceptionプログラムの一員であるRendered.aiは、オンライントレーニング、ロボティクス、自律走行などの多くのアプリケーションにラベル付き合成データを生成することができるOmniverse Replicatorをプラットフォームに統合しました。 Omniverse Replicatorは、Universal Scene Description（「OpenUSD」）、Material Definition Language（MDL）、およびPhysXを含む3Dワークフローのオープンスタンダードに基づいて構築され、仮想世界の風景と植生のモデリング、衛星画像のオブジェクト検出、さらには人間の卵細胞の生存可能性のテストに使用されています。 Omniverse Replicatorを使用して生成された合成画像。Rendered.ai提供。 Rendered.aiは、Omniverse ReplicatorのRTXアクセラレーション機能を活用することで、レイトレーシング、ドメインランダム化、マルチセンサーシミュレーションなどの機能を利用することができます。コンピュータビジョンエンジニア、データサイエンティスト、およびその他のユーザーは、クラウド上の簡単なウェブインターフェイスを介して合成データを迅速かつ簡単に生成することができます。「AIをトレーニングするために持つ必要があるデータは、実際にAIのパフォーマンスを支配する要因です」とKundtzは述べています。「Omniverse ReplicatorをRendered.aiに統合することで、さまざまな産業分野でより大きく、より優れたAIモデルをトレーニングするために合成データを利用するユーザーにとって、新しいレベルの簡単さと効率が実現されます。」 Rendered.aiは、カナダのバンクーバーで6月18日から22日まで開催されるコンピュータビジョンとパターン認識のカンファレンス（CVPR）で、Omniverse Replicatorとのプラットフォーム統合をデモンストレーションします。クラウドでの合成データ生成 AWS…

NVIDIAリサーチがCVPRで自律走行チャレンジとイノベーション賞を受賞

NVIDIAは、カナダのバンクーバーで開催されるComputer Vision and Pattern Recognition Conference（CVPR）において、自律走行開発の3D占有予測チャレンジで激戦を制し、優勝者として紹介されます。この競技には、10地域にまたがる約150チームから400以上の投稿がありました。 3D占有予測とは、シーン内の各ボクセルの状態を予測するプロセスであり、つまり3Dバードアイビューグリッド上の各データポイントを指します。ボクセルは、フリー、占有、または不明として識別することができます。安全で堅牢な自動運転システムの開発に不可欠な3D占有グリッド予測は、NVIDIA DRIVEプラットフォームによって可能になる最新の畳み込みニューラルネットワークやトランスフォーマーモデルを使用して、自律車両（AV）の計画および制御スタックに情報を提供します。「NVIDIAの優勝ソリューションには、2つの重要なAVの進歩があります」と、NVIDIAの学習と知覚のシニアリサーチサイエンティストであるZhiding Yu氏は述べています。「優れたバードアイビュー認識を生み出す最新のモデル設計を実証することができます。さらに、3D占有予測での10億パラメーターまでのビジュアルファウンデーションモデルの効果と大規模な事前学習の有効性を示しています。」自動運転の知覚は、画像内のオブジェクトや空きスペースなどの2Dタスクの処理から、複数の入力画像を使用して3Dで世界を理解することに進化しています。これにより、複雑な交通シーン内のオブジェクトについて柔軟で精密な細かい表現が提供されるようになり、これはNVIDIAのAV応用研究および著名な科学者であるJose Alvarez氏によれば、「自律走行の安全感知要件を達成するために重要です。」 Yu氏は、NVIDIA Researchチームの受賞作品を、6月18日（日）10:20 a.m. PTに開催されるCVPRのEnd-to-End Autonomous Driving Workshopおよび6月19日（月）4:00 p.m. PTに開催されるVision-Centric…