Search Results 定義

人間の注意力を予測するモデルを通じて、心地よいユーザーエクスペリエンスを実現する

Google Researchのシニアリサーチサイエンティスト、Junfeng He氏とスタッフリサーチサイエンティスト、Kai Kohlhoff氏による記事です。人間は、驚くほど多くの情報を取り入れる能力を持っています（網膜に入る情報は秒間約10 10ビット）。そして、タスクに関連し、興味深い領域に選択的に注目し、さらに処理する能力を持っています（例：記憶、理解、行動）。人間の注意（その結果として得られるものはしばしば注目モデルと呼ばれます）をモデル化することは、神経科学、心理学、人間コンピュータインタラクション（HCI）、コンピュータビジョンの分野で興味を持たれてきました。どの領域でも、どの領域でも、注目が集まる可能性が高い領域を予測する能力には、グラフィックス、写真、画像圧縮および処理、視覚品質の測定など、多数の重要な応用があります。以前、機械学習とスマートフォンベースの注視推定を使用して、以前は1台あたり3万ドルにも及ぶ専門的なハードウェアが必要だった視線移動の研究を加速する可能性について説明しました。関連する研究には、「Look to Speak」というアクセシビリティニーズ（ALSのある人など）を持つユーザーが目でコミュニケーションするのを支援するものと、「Differentially private heatmaps」という、ユーザーのプライバシーを保護しながら注目のようなヒートマップを計算する技術が最近発表されました。このブログでは、私たちはCVPR 2022からの1つの論文と、CVPR 2023での採用が決定したもう1つの論文、「Deep Saliency Prior for Reducing Visual Distraction」と「Learning from Unique Perspectives: User-aware…

NeRFを使用して室内空間を再構築する

Marcos Seefelder、ソフトウェアエンジニア、およびDaniel Duckworth、リサーチソフトウェアエンジニア、Google Research 場所を選ぶ際、私たちは次のような疑問を持ちます。このレストランは、デートにふさわしい雰囲気を持っているのでしょうか？屋外にいい席はありますか？試合を見るのに十分なスクリーンがありますか？これらの質問に部分的に答えるために、写真やビデオを使用することがありますが、実際に訪れることができない場合でもそこにいるような感覚には代わりがありません。インタラクティブでフォトリアルな多次元の没入型体験は、このギャップを埋め、スペースの感触や雰囲気を再現し、ユーザーが必要な情報を自然かつ直感的に見つけることができるようにすることができます。これを支援するために、Google MapsはImmersion Viewを開発しました。この技術は、機械学習（ML）とコンピュータビジョンの進歩を活用して、Street Viewや航空写真など数十億の画像を融合して世界の豊富なデジタルモデルを作成します。さらに、天気、交通、場所の混雑度などの役立つ情報を上に重ねます。Immersive Viewでは、レストラン、カフェ、その他の会場の屋内ビューが提供され、ユーザーが自信を持ってどこに行くかを決めるのに役立ちます。今日は、Immersion Viewでこれらの屋内ビューを提供するために行われた作業について説明します。私たちは、写真を融合してニューラルネットワーク内で現実的な多次元の再構成を生成するための最先端の手法であるニューラル輝度場（NeRF）に基づいています。私たちは、DSLRカメラを使用してスペースのカスタム写真キャプチャ、画像処理、およびシーン再現を含むNeRFの作成パイプラインについて説明します。私たちは、Alphabetの最近の進歩を活用して、視覚的な忠実度で以前の最先端を上回るか、それに匹敵する方法を設計しました。これらのモデルは、キュレーションされたフライトパスに沿って組み込まれたインタラクティブな360°ビデオとして埋め込まれ、スマートフォンで利用可能になります。アムステルダムのThe Seafood Barの再構築（Immersive View内）。写真からNeRFへ私たちの作業の中核にあるのは、最近開発された3D再構成および新しいビュー合成の方法であるNeRFです。シーンを説明する写真のコレクションがある場合、NeRFはこれらの写真をニューラルフィールドに凝縮し、元のコレクションに存在しない視点から写真をレンダリングするために使用できます。 NeRFは再構成の課題を大部分解決したものの、実世界のデータに基づくユーザー向け製品にはさまざまな課題があります。たとえば、照明の暗いバーから歩道のカフェ、ホテルのレストランまで、再構成品質とユーザー体験は一貫している必要があります。同時に、プライバシーは尊重され、個人を特定する可能性のある情報は削除される必要があります。重要なのは、シーンを一貫してかつ効率的にキャプチャし、必要な写真を撮影するための労力を最小限に抑えたまま、高品質の再構成が確実に得られることです。最後に、すべてのモバイルユーザーが同じ自然な体験を手に入れられるようにすることが重要です。 Immersive View屋内再構築パイプライン。キャプチャ＆前処理高品質なNeRFを生成するための最初のステップは、シーンを注意深くキャプチャすることです。3Dジオメトリーとカラーを派生させるための複数の異なる方向からの密な写真のコレクションを作成する必要があります。オブジェクトの表面に関する情報が多いほど、モデルはオブジェクトの形状やライトとの相互作用の方法を発見する際により優れたものになります。さらに、NeRFモデルはカメラやシーンそのものにさらなる仮定を置きます。たとえば、カメラのほとんどのプロパティ（ホワイトバランスや絞りなど）は、キャプチャ全体で固定されていると仮定されます。同様に、シーン自体は時間的に凍結されていると仮定されます。ライティングの変更や動きは避ける必要があります。これは、キャプチャに必要な時間、利用可能な照明、機器の重さ、およびプライバシーなどの実用上の問題とのバランスを取る必要があります。プロの写真家と協力して、DSLRカメラを使用して会場写真を迅速かつ信頼性の高い方法でキャプチャする戦略を開発しました。このアプローチは、現在までのすべてのNeRF再構築に使用されています。…

アクセラレータの加速化：科学者がGPUとAIでCERNのHPCを高速化

注：これは、高性能コンピューティングを利用した科学を前進させる研究者のシリーズの一環です。 Maria Gironeは、高速コンピューティングとAIを用いて、世界最大の科学コンピュータネットワークを拡大しています。 2002年以来、粒子物理学の博士号を持つ彼女は、40以上の国の170以上のサイトにまたがるシステムのグリッドで、CERNの大型ハドロン衝突型加速器（LHC）をサポートしています。HL-LHCと呼ばれる巨大加速器の高輝度版は、1年にエクサバイト単位のデータを生成する10倍の陽子衝突を生み出します。これは、2012年に2つの実験で宇宙の科学者たちの理解を確認したサブ原子粒子であるヒッグスボソンを発見したときに生成されたものよりも桁違いに多いです。ジュネーブの呼び声彼女は南イタリアで育った最初の日から科学が大好きでした。「大学で、宇宙を支配する基本的な力について学びたかったので、物理学に焦点を合わせました」と彼女は言います。「私はCERNに惹かれました。それは、世界中の異なる地域の人々が科学に共通の情熱を持って一緒に働く場所です。」レマン湖とジュラ山脈の間にある欧州原子核研究機構は、1万2千人以上の物理学者の中心地です。 CERNとフランス・スイス国境にあるLHCの地図（CERN提供の画像） 27キロメートルのリングは、陽子が光速の99.9999991％で疾走する世界最速のレーシングトラックと呼ばれることがあります。超伝導磁石は絶対零度に近く動作し、太陽よりも一時的に何百万倍も熱い衝突を生み出します。ラボのドアを開く 2016年、Gironeは、革新を加速し、将来のコンピューティング課題に取り組むために学術および産業研究者を集めるグループであるCERN openlabのCTOに任命されました。彼女は、イタリアのHPCおよびAIの専門家であるE4 Computer Engineeringとの協力を通じて、NVIDIAと密接に協力しています。最初の行動の1つで、GironeはCERN openlabのAIに関する最初のワークショップを開催しました。産業界の参加者たちは、その技術に熱心でした。物理学者たちは、課題について説明しました。「その日の終わりに、私たちは2つの異なる世界から来たことに気づきましたが、人々はお互いに耳を傾け、熱心に次に何をするか提案しました」と彼女は言います。物理AIの高まり今日、高エネルギー物理学全体のデータ処理チェーンにAIを適用する出版物の数が増加しているとGironeは報告しています。彼女は、複雑な問題をAIで解決する機会を見出す若い研究者を引き付けると述べています。一方、研究者たちは物理ソフトウェアをGPUアクセラレータに移植し、GPU上で実行される既存のAIプログラムを使用しています。「NVIDIAの支援なしに、私たちの研究者が問題を解決し、質問に答え、記事を書くために協力することは、これほど迅速には起こりませんでした」と彼女は言います。「NVIDIAの人々が、科学が技術と並行して進化する方法、およびGPUを用いたアクセラレーションをどのように利用できるかを理解していることは、非常に重要でした。」エネルギー効率は、Gironeのチームの別の優先事項です。…

NVIDIAとHexagonが、産業のデジタル化を加速するためのソリューションスイートを提供します

産業企業がデジタル化の次のレベルに到達するためには、物理システムの正確なバーチャルな表現を作成する必要があります。 NVIDIAは、ストックホルムに拠点を置くデジタルリアリティソリューションのグローバルリーダーであるHexagonと協力し、AI対応のデジタルツインを構築するために必要なツールとソリューションを企業に提供しています。これにより、物理的に正確で完全に同期されたデジタルツインを作成し、組織を変革することができます。 Hexagonは、HxDRリアリティキャプチャとNexus製造プラットフォームからNVIDIA Omniverseに統合を構築しています。Omniverseは、Universal Scene Description（「OpenUSD」）プラグインを介して産業メタバースアプリケーションを開発および運用するためのオープンプラットフォームです。NVIDIA AIテクノロジーによって駆動される接続されたプラットフォームは、農業、自律移動、建物、都市、防衛、インフラ、製造、鉱業を含むHexagonの主要なエコシステム全体に利益をもたらします。これらのソリューションにより、統一されたビューを通じてシームレスなコラボレーションプランニングが実現し、産業顧客はワークフローを最適化し、スケールを拡大することができます。プロフェッショナルや開発者は、リアリティキャプチャ、デジタルツイン、AI、シミュレーション、可視化の高度な機能を利用して、仮想プロトタイピングからデジタル工場まで最も複雑なグラフィックスワークフローを強化することができます。物理世界とデジタル世界を融合した現実製造業は、新製品を設計・開発する数百万の工場を世界中に有している46兆ドルの産業です。デジタル化により、製造業者はより効率的かつ生産的な方法で最も複雑なエンジニアリング問題に取り組むことができます。また、産業企業はワークフローを自動化し、ソフトウェアによってサービスを変革することで、オペレーショナル効率を向上させ、ソフトウェア定義化に近づくことができます。 HxGN LIVE Globalイベントでは、HexagonとNVIDIAが統合提供を通じてデジタル化の旅を加速する方法を紹介しました。下のデモを見て、設計者、エンジニア、その他の人々がOmniverseプラットフォームを使用して、HexagonのHxDRおよびNexusプラットフォームから超複雑なデータを迅速に集約およびシミュレーションする方法をご覧ください。 Hexagonは、OmniverseをベースにしたAI対応のWebアプリケーションを開発しており、デジタルツインと物理世界のリアルタイム比較ができるようになります。これにより、意思決定を加速し、計画とオペレーションを最適化することができます。このソリューションにより、エンタープライズは、チーム全体で迅速な反復を実現し、より協力的なワークフローを実現することができます。この発表により、Omniverseエコシステムは、Hexagonのジオスペーシャルリアリティキャプチャ、センサー、ソフトウェア、自律技術の専門知識を活用することができ、企業はこれまで以上に迅速かつ正確に仮想世界を構築、シミュレーション、運用、最適化することができます。 NVIDIA Omniverseについて詳しくはこちらをご覧ください。Hexagonの最新発表を読んで、HxGN LIVE Global 2023での最新のデモや展示を見てください。

NVIDIAリサーチがCVPRで自律走行チャレンジとイノベーション賞を受賞

NVIDIAは、カナダのバンクーバーで開催されるComputer Vision and Pattern Recognition Conference（CVPR）において、自律走行開発の3D占有予測チャレンジで激戦を制し、優勝者として紹介されます。この競技には、10地域にまたがる約150チームから400以上の投稿がありました。 3D占有予測とは、シーン内の各ボクセルの状態を予測するプロセスであり、つまり3Dバードアイビューグリッド上の各データポイントを指します。ボクセルは、フリー、占有、または不明として識別することができます。安全で堅牢な自動運転システムの開発に不可欠な3D占有グリッド予測は、NVIDIA DRIVEプラットフォームによって可能になる最新の畳み込みニューラルネットワークやトランスフォーマーモデルを使用して、自律車両（AV）の計画および制御スタックに情報を提供します。「NVIDIAの優勝ソリューションには、2つの重要なAVの進歩があります」と、NVIDIAの学習と知覚のシニアリサーチサイエンティストであるZhiding Yu氏は述べています。「優れたバードアイビュー認識を生み出す最新のモデル設計を実証することができます。さらに、3D占有予測での10億パラメーターまでのビジュアルファウンデーションモデルの効果と大規模な事前学習の有効性を示しています。」自動運転の知覚は、画像内のオブジェクトや空きスペースなどの2Dタスクの処理から、複数の入力画像を使用して3Dで世界を理解することに進化しています。これにより、複雑な交通シーン内のオブジェクトについて柔軟で精密な細かい表現が提供されるようになり、これはNVIDIAのAV応用研究および著名な科学者であるJose Alvarez氏によれば、「自律走行の安全感知要件を達成するために重要です。」 Yu氏は、NVIDIA Researchチームの受賞作品を、6月18日（日）10:20 a.m. PTに開催されるCVPRのEnd-to-End Autonomous Driving Workshopおよび6月19日（月）4:00 p.m. PTに開催されるVision-Centric…