Search Results 9

Imagen EditorとEditBench：テキストによる画像補完の進展と評価

グーグルリサーチの研究エンジニアであるスー・ワンとセズリー・モンゴメリーによる投稿過去数年間、テキストから画像を生成する研究は、画期的な進展（特に、Imagen、Parti、DALL-E 2など）を見ており、これらは自然に関連するトピックに浸透しています。特に、テキストによる画像編集（TGIE）は、完全にやり直すのではなく、生成された物と撮影された視覚物を編集する実践的なタスクであり、素早く自動化されたコントロール可能な編集は、視覚物を再作成するのに時間がかかるか不可能な場合に便利な解決策です（例えば、バケーション写真のオブジェクトを微調整したり、ゼロから生成されたかわいい子犬の細かいディテールを完璧にする場合）。さらに、TGIEは、基礎となるモデルのトレーニングを改良する大きな機会を表しています。マルチモーダルモデルは、適切にトレーニングするために多様なデータが必要であり、TGIE編集は高品質でスケーラブルな合成データの生成と再結合を可能にすることができ、おそらく最も重要なことに、任意の軸に沿ってトレーニングデータの分布を最適化する方法を提供できます。 CVPR 2023で発表される「Imagen Editor and EditBench: Advancing and Evaluating Text-Guided Image Inpainting」では、マスクインペインティングの課題に対する最先端の解決策であるImagen Editorを紹介します。つまり、ユーザーが、編集したい画像の領域を示すオーバーレイまたは「マスク」（通常、描画タイプのインターフェイス内で生成されるもの）と共にテキスト指示を提供する場合のことです。また、画像編集モデルの品質を評価する方法であるEditBenchも紹介します。EditBenchは、一般的に使用される粗い「この画像がこのテキストに一致するかどうか」の方法を超えて、モデルパフォーマンスのより細かい属性、オブジェクト、およびシーンについて詳細に分析します。特に、画像とテキストの整合性の信頼性に強い重点を置きつつ、画像の品質を見失わないでください。 Imagen Editorは、指定された領域にローカライズされた編集を行います。モデルはユーザーの意図を意味を持って取り入れ、写真のようなリアルな編集を実行します。 Imagen Editor Imagen Editorは、Imagenでファインチューニングされた拡散ベースのモデルで、編集を行うために改良された言語入力の表現、細かい制御、および高品質な出力を目的としています。Imagen Editorは、ユーザーから3つの入力を受け取ります。1）編集する画像、2）編集領域を指定するバイナリマスク、および3）テキストのプロンプトです。これら3つの入力は、出力サンプルを誘導します。 Imagen Editorは、高品質なテキストによる画像インペインティングを行うための3つの核心技術に依存しています。まず、ランダムなボックスとストロークマスクを適用する従来のインペインティングモデル（例：Palette、Context…

Image Processing

人間の注意力を予測するモデルを通じて、心地よいユーザーエクスペリエンスを実現する

Google Researchのシニアリサーチサイエンティスト、Junfeng He氏とスタッフリサーチサイエンティスト、Kai Kohlhoff氏による記事です。人間は、驚くほど多くの情報を取り入れる能力を持っています（網膜に入る情報は秒間約10 10ビット）。そして、タスクに関連し、興味深い領域に選択的に注目し、さらに処理する能力を持っています（例：記憶、理解、行動）。人間の注意（その結果として得られるものはしばしば注目モデルと呼ばれます）をモデル化することは、神経科学、心理学、人間コンピュータインタラクション（HCI）、コンピュータビジョンの分野で興味を持たれてきました。どの領域でも、どの領域でも、注目が集まる可能性が高い領域を予測する能力には、グラフィックス、写真、画像圧縮および処理、視覚品質の測定など、多数の重要な応用があります。以前、機械学習とスマートフォンベースの注視推定を使用して、以前は1台あたり3万ドルにも及ぶ専門的なハードウェアが必要だった視線移動の研究を加速する可能性について説明しました。関連する研究には、「Look to Speak」というアクセシビリティニーズ（ALSのある人など）を持つユーザーが目でコミュニケーションするのを支援するものと、「Differentially private heatmaps」という、ユーザーのプライバシーを保護しながら注目のようなヒートマップを計算する技術が最近発表されました。このブログでは、私たちはCVPR 2022からの1つの論文と、CVPR 2023での採用が決定したもう1つの論文、「Deep Saliency Prior for Reducing Visual Distraction」と「Learning from Unique Perspectives: User-aware…

スピードは必要なすべてです：GPU意識の最適化による大規模拡散モデルのオンデバイス加速化

コアシステム&エクスペリエンスのソフトウェアエンジニアであるJuhyun LeeとRaman Sarokinによる投稿画像生成のための大規模な拡散モデルの普及により、モデルサイズと推論ワークロードは大幅に増加しました。モバイル環境でのオンデバイスML推論には、リソース制約のために緻密なパフォーマンス最適化とトレードオフの考慮が必要です。コスト効率とユーザープライバシーの必要性により、大規模拡散モデル（LDM）のオンデバイスでの実行は、これらのモデルの大幅なメモリ要件と計算要件のために更に大きな課題を提供します。本稿では、私たちの「速さこそがすべて：GPUによる大規模拡散モデルのオンデバイスアクセラレーションによる最適化」に焦点を当て、モバイルGPU上の基本的なLDMモデルの最適化された実行について述べます。このブログ記事では、Stable Diffusionなどの大規模拡散モデルを高速で実行するために使用した主なテクニックをまとめ、512×512ピクセルのフル解像度で20回イテレーションを行い、蒸留なしでオリジナルモデルの高性能推論速度で12秒未満で実行できるようにしました。前回のブログ記事で述べたように、GPUアクセラレーションされたML推論は、メモリのパフォーマンスに制限されることがよくあります。そして、LDMの実行も例外ではありません。したがって、私たちの最適化の中心テーマは、演算論理ユニットの効率性を優先するものよりも、メモリの入出力（I/O）の効率性であり、ML推論の全体的なレイテンシを減らすことです。 LDMのサンプル出力。プロンプトテキスト：「周りの花と可愛い子犬の写真リアルな高解像度画像」。メモリ効率のための強化されたアテンションモジュール ML推論エンジンは通常、最適化されたさまざまなML操作を提供します。しかし、各ニューラルネット演算子を実行するためのオーバーヘッドがあるため、最適なパフォーマンスを達成することは依然として難しい場合があります。このオーバーヘッドを緩和するため、ML推論エンジンは、複数の演算子を1つの演算子に統合する広範な演算子フュージョンルールを組み込んで、テンソル要素を横断するイテレーション数を減らすことで、イテレーションあたりの計算を最大限に増やします。たとえば、TensorFlow Liteは、畳み込みのような計算負荷の高い演算と、後続の活性化関数であるReLUのような演算を組み合わせる演算子フュージョンを利用しています。最適化の明らかな機会は、LDMのデノイザーモデルで採用された頻繁に使用されるアテンションブロックです。アテンションブロックにより、重要な領域に重みを割り当てることで、モデルは入力の特定の部分に焦点を当てることができます。アテンションモジュールを最適化する方法は複数ありますが、以下に説明する2つの最適化のうち、どちらが優れたパフォーマンスを発揮するかに応じて、選択的に1つを使用します。第1の最適化である部分的にフュージョンされたsoftmaxは、アテンションモジュール内のsoftmaxと行列乗算の間の詳細なメモリ書き込みと読み取りを省略します。アテンションブロックが単純な行列乗算であると仮定すると、Y = softmax（X）* Wの形式で表されます。ここで、XとWはそれぞれa×bおよびb×cの2D行列です（下図参照）。数値の安定性のために、T= softmax（X）は、通常、3つのパスで計算されます。リストの最大値を決定し、行ごとに行列Xを計算します各リスト項目の指数関数と最大値（パス1から）の差を合計しますアイテムから最大値を引いた指数関数を、パス2からの合計で除算しますこれらのパスを単純に実行すると、中間テンソル T に全体のsoftmax関数の出力が格納されるため、巨大なメモリ書き込みが必要になります。パス1と2の結果のみを保存するテクニックを使用することで、m と…

新時代の幕開け：「エイジオブエンパイア」シリーズがGeForce NOWに参加、6月に20タイトルがリリース予定

暑い太陽と長い日々の季節がやってきました。そんな時は、6月にGeForce NOWに参加する20のゲームで、この夏は家の中にいましょう。また、プールで、おばあちゃんの家や車の中など、どこでもストリーミングできます。どちらの方法でも、GeForce NOWが対応します。次のXboxゲームとして、Age of EmpiresシリーズのタイトルがGeForce NOWに登場します。GeForce NOWライブラリの1,600以上のゲームの中から、この夏たくさん楽しむことができます。帝国を拡大する石器時代からクラウドまで。 NVIDIAは先月、Microsoftとの協力関係の一環として、最初のXboxゲームをクラウドにリリースしました。今度は、Ensemble StudiosのAge of Empiresシリーズのアクションゲームをクラウドに取り込む最初の人になりました。 1997年の最初のリリース以来、Age of Empiresは、最も長く続くリアルタイムストラテジーシリーズの1つとして確立されています。この高評価のRTSシリーズは、プレイヤーが拡大して繁栄する文明を目指して、帝国全体を制御することを目的としています。フランチャイズの最新のSteamバージョン4つが、GeForce NOWライブラリに後日追加されます。それぞれのタイトルは、Age of Empires: Definitive Edition、Age of…

アクセラレータの加速化：科学者がGPUとAIでCERNのHPCを高速化

注：これは、高性能コンピューティングを利用した科学を前進させる研究者のシリーズの一環です。 Maria Gironeは、高速コンピューティングとAIを用いて、世界最大の科学コンピュータネットワークを拡大しています。 2002年以来、粒子物理学の博士号を持つ彼女は、40以上の国の170以上のサイトにまたがるシステムのグリッドで、CERNの大型ハドロン衝突型加速器（LHC）をサポートしています。HL-LHCと呼ばれる巨大加速器の高輝度版は、1年にエクサバイト単位のデータを生成する10倍の陽子衝突を生み出します。これは、2012年に2つの実験で宇宙の科学者たちの理解を確認したサブ原子粒子であるヒッグスボソンを発見したときに生成されたものよりも桁違いに多いです。ジュネーブの呼び声彼女は南イタリアで育った最初の日から科学が大好きでした。「大学で、宇宙を支配する基本的な力について学びたかったので、物理学に焦点を合わせました」と彼女は言います。「私はCERNに惹かれました。それは、世界中の異なる地域の人々が科学に共通の情熱を持って一緒に働く場所です。」レマン湖とジュラ山脈の間にある欧州原子核研究機構は、1万2千人以上の物理学者の中心地です。 CERNとフランス・スイス国境にあるLHCの地図（CERN提供の画像） 27キロメートルのリングは、陽子が光速の99.9999991％で疾走する世界最速のレーシングトラックと呼ばれることがあります。超伝導磁石は絶対零度に近く動作し、太陽よりも一時的に何百万倍も熱い衝突を生み出します。ラボのドアを開く 2016年、Gironeは、革新を加速し、将来のコンピューティング課題に取り組むために学術および産業研究者を集めるグループであるCERN openlabのCTOに任命されました。彼女は、イタリアのHPCおよびAIの専門家であるE4 Computer Engineeringとの協力を通じて、NVIDIAと密接に協力しています。最初の行動の1つで、GironeはCERN openlabのAIに関する最初のワークショップを開催しました。産業界の参加者たちは、その技術に熱心でした。物理学者たちは、課題について説明しました。「その日の終わりに、私たちは2つの異なる世界から来たことに気づきましたが、人々はお互いに耳を傾け、熱心に次に何をするか提案しました」と彼女は言います。物理AIの高まり今日、高エネルギー物理学全体のデータ処理チェーンにAIを適用する出版物の数が増加しているとGironeは報告しています。彼女は、複雑な問題をAIで解決する機会を見出す若い研究者を引き付けると述べています。一方、研究者たちは物理ソフトウェアをGPUアクセラレータに移植し、GPU上で実行される既存のAIプログラムを使用しています。「NVIDIAの支援なしに、私たちの研究者が問題を解決し、質問に答え、記事を書くために協力することは、これほど迅速には起こりませんでした」と彼女は言います。「NVIDIAの人々が、科学が技術と並行して進化する方法、およびGPUを用いたアクセラレーションをどのように利用できるかを理解していることは、非常に重要でした。」エネルギー効率は、Gironeのチームの別の優先事項です。…

NYUとNVIDIAが協力して、患者の再入院を予測するための大規模言語モデルを開発する

退院は患者にとって重要なマイルストーンですが、時には回復への道のりの終わりではありません。米国では、初回退院後30日以内に約15％の入院患者が再入院することがあり、患者と病院の両方にとってより悪い結果や高いコストが伴うことがしばしばあります。ニューヨーク大学の学術医療センターであるNYUランゴーンヘルスの研究者は、NVIDIAの専門家と協力して、患者の30日間の再入院リスクや他の臨床的な結果を予測する大規模言語モデル（LLM）を開発しました。 NYUランゴーンヘルスの6つの入院施設に展開されたNYUTronモデルは、今日発表された科学誌ネイチャーに掲載され、AIによる洞察力を提供することで、再入院の可能性を低減する臨床介入が必要な患者を特定する医師を支援します。「患者を退院させる際には、再入院が必要になることは予想されません。また、もしそうだった場合は、病院に長く入院させる必要があるかもしれません」と、NYUグロスマン医学部の放射線科と脳神経外科の助教授であり、NYUTronの主要な協力者の一人であるエリック・オーマン博士は述べています。「AIモデルの分析を使用することで、私たちはクリニシャンに再入院のリスクを予測し、防止または解決するための手段を提供できるようになるでしょう。」このモデルはNYUの医療システムで50,000人以上の患者に適用され、再入院リスクの予測結果が医師に電子メール通知で共有されています。オーマン氏のチームは、NYUTronの分析に基づく介入が再入院率を減らすかどうかを検証する臨床試験を計画しています。急速な再入院の脅威に立ち向かう米国政府は、30日間の再入院率を医療の質の指標として追跡しています。再入院率が高い医療機関には罰金が科され、これにより病院が退院プロセスを改善するように刺激されます。最近退院した患者が再び入院する必要がある理由はたくさんあります。例えば、感染症、抗生物質の過剰処方、早すぎる手術ドレーンの除去などがあります。これらのリスク要因が早期に発見されれば、医師は治療計画を調整したり、患者を長期入院させたりすることで介入することができます。「患者の再入院を予測する計算モデルは、1980年代から存在していますが、これを自然言語処理のタスクとして、臨床テキストの健康システム規模のコーパスが必要となるものとして扱っています」と、オーマン博士は述べています。「私たちは、電子健康記録の非構造化データを使用してLLMをトレーニングし、人々が以前に考慮していなかった洞察力を捕捉できるかどうかを確認しました。」 NYUTronは、NYUランゴーンヘルスの10年間の健康記録、約4十億語の臨床ノート、約40万人の患者を表す大量のデータによって事前トレーニングされました。このモデルは、再入院を予測するための最先端の機械学習モデルよりも10％以上の精度改善を達成しました。 LLMが初期の使用ケースで30日間の再入院を予測するためにトレーニングされた後、チームは1週間ほどで他の4つの予測アルゴリズムを展開することができました。これには、患者の入院期間の長さを予測すること、入院中の死亡リスク、患者の保険請求が拒否される可能性などが含まれます。「病院を運営することは、ある意味ではホテルを管理することに似ています」と、オーマン博士は述べています。「病院がより効率的に運営できるようにする洞察力は、より多くの患者により多くのベッドとより良いケアを提供することを意味します。」トレーニングから展開までのLLM NYUTronは、数億のパラメータを持つLLMで、NVIDIA NeMo Megatronフレームワークを使用して、NVIDIA A100 Tensor Core GPUの大規模クラスターでトレーニングされました。「言語モデルに関する話題の多くは、数百または数千のGPUを使用して、汚いデータセットでトレーニングされた数十億のパラメータを持つ巨大で汎用的なモデルについてです」と、オーマン博士は述べています。「私たちは、高度に洗練されたデータでトレーニングされた中程度のサイズのモデルを使用して、医療特化のタスクを達成しています。」現実の医療現場で推論を最適化するために、チームはNVIDIA Tritonオープンソースソフトウェアの変更バージョンを開発し、NVIDIA TensorRTソフトウェア開発キットを使用してAIモデルの展開を簡素化しました。…

フォトグラメトリとは何ですか？

「ストリートビュー」のおかげで、現代の地図ツールを使って、レストランを調べたり、周辺のランドマークを見て方向を確認したり、道路上にいるかのような体験をシミュレーションしたりすることができます。これらの3Dビューを作成するための技術は、フォトグラメトリと呼ばれます。つまり、画像をキャプチャして繋ぎ合わせて物理世界のデジタルモデルを作成するプロセスです。それはまるでジグソーパズルのようで、各ピースは画像で構成されます。そして、キャプチャされた画像が多ければ多いほど、3Dモデルはより現実的で詳細になります。フォトグラメトリの作業方法フォトグラメトリ技術は、建築や考古学などのさまざまな産業にも応用できます。例えば、フォトグラメトリの早い例の一つは、1849年にフランスの軍人アイメ・ローセダがテラストリアル写真を使用して、パリのイノディル旅館で最初の建築調査を行ったことです。可能な限り多くの領域や環境の写真を撮影して、チームは現場のデジタルモデルを構築して表示・分析することができます。 3Dスキャンは、シーン内のポイントの位置を測定するために構造化されたレーザー光を使用するのに対し、フォトグラメトリは実際の画像を使用してオブジェクトをキャプチャして3Dモデルに変換します。これは、良好なフォトグラメトリには良好なデータセットが必要であることを意味します。また、サイト、記念碑、または遺物のすべての領域がカバーされるように、正しいパターンで写真を撮ることが重要です。フォトグラメトリの種類今日、シーンを繋ぎ合わせたい場合、被写体の複数の角度から写真を撮影し、専用のアプリケーションで組み合わせてオーバーラップデータを抽出して3Dモデルを作成することができます。 3ds-scan.de提供のイメージ。フォトグラメトリには、空中フォトグラメトリと地上フォトグラメトリの2種類があります。空中フォトグラメトリは、カメラを空中に置いて上から写真を撮影することで、一般的には大きなサイトやアクセスが困難な場所で使用されます。空中フォトグラメトリは、林業や自然資源管理で地理情報データベースを作成するために最も広く使用されています。地上フォトグラメトリ、またはクローズレンジフォトグラメトリは、よりオブジェクトに焦点を当てたもので、手持ちのカメラまたは三脚に取り付けたカメラで撮影された画像に頼ることが多いです。これにより、現場でのデータ収集が迅速に行われ、より詳細な画像キャプチャが可能になります。 GPUを使用したフォトグラメトリワークフローの加速最も正確なフォトグラメトリの結果を得るには、チームは巨大な高精度のデータセットが必要です。より多くの写真を撮影すると、より正確で精密なモデルが得られます。ただし、大規模なデータセットは処理に時間がかかり、チームはファイルを処理するためにより多くのコンピュータパワーが必要です。 GPUの最新の進歩は、チームがこれを解決するのに役立ちます。NVIDIA RTXカードなどの高度なGPUを使用することで、ユーザーは処理を高速化し、より高精度なモデルを維持しながら、より大きなデータセットを入力することができます。例えば、建設チームは、建設現場の進捗状況を示すためにフォトグラメトリ技術を頼りにすることがよくあります。一部の企業は、サイトの画像をキャプチャして仮想的なウォークスルーを作成します。しかし、パワー不足のシステムはチョッピーな視覚体験をもたらし、クライアントやプロジェクトチームとの作業セッションから注意を逸らしてしまいます。 RTXプロフェッショナルGPUの大きなメモリを使用すると、建築家、エンジニア、デザイナーは巨大なデータセットを簡単に管理して、フォトグラメトリモデルをより速く作成・処理することができます。考古学者ダリア・ダバルは、NVIDIA RTXを使用して、遺物やサイトの高品質なモデルを作成・レンダリングするスキルを拡大しています。フォトグラメトリは、写真のベクトル化を支援するためにGPUパワーを使用するため、何千もの画像を繋ぎ合わせる作業を加速します。そして、RTXプロフェッショナルGPUのリアルタイムレンダリングとAI機能により、チームは3Dワークフローを加速し、フォトリアルなレンダリングを作成し、3Dモデルを最新の状態に保つことができます。フォトグラメトリの歴史と将来フォトグラメトリのアイデアは、写真術の発明の4世紀前の15世紀末にまで遡ります。レオナルド・ダ・ヴィンチは、透視と射影幾何学の原理を開発し、フォトグラメトリの基盤となる柱を築きました。…

Link-credible：Steam、Epic Games Store、Ubisoftアカウントリンクを使用して、GeForce NOWでより速くゲームに参加しましょう

Steam、Epic Games Store、UbisoftアカウントにGeForce NOWをリンクして、お気に入りのゲームにより迅速にアクセスできます。また、Ubisoft Forwardが6月12日(月)に開催されるので、最新のニュースや発表を披露するゲームパブリッシャーの今後のGeForce NOWに追加されるゲームを垣間見ることができます。さらに、今週は2つの新しいゲームがクラウドからストリーミングできるようになりました。また、UbisoftからTom Clancy’s The Division 2の最新シーズンも配信開始となります。リンクされたアカウント GeForce NOWは、Steam、Epic、そして最近ではUbisoftのアカウントを直接サービスにリンクすることで、メンバーにとってゲームを便利かつ簡単にすることができます。各プレイセッションごとにアカウントにサインインする必要がなく、一度リンクするだけで、メンバーはデバイス間で自動的にサインインできるようになります。自動的で超音速。今日から、Ubisoft Connectゲームを起動するには、アプリ内でUbisoftアカウントをリンクする必要があります。これが完了すると、Rainbow Six Siege、Far Cry 6、The Division 2などの人気Ubisoftゲームを簡単にプレイできます。…

映像作家のサラ・ディーチシーが今週の「NVIDIA Studio」でAIについて話します

編集部注：この投稿は、推薦されたアーティストを紹介し、クリエイティブなヒントやトリックを提供し、NVIDIA Studioテクノロジーがクリエイティブワークフローを改善する方法を示す当社の週刊In the NVIDIA Studioシリーズの一部です。また、新しいGeForce RTX 40シリーズGPUの機能、技術、リソース、およびコンテンツ作成を劇的に加速する方法について、深く掘り下げています。自身のYouTubeチャンネルで9万人以上の購読者を持つ編集者兼映像作家のSara Dietschyは、テクノロジーとクリエイティブの交差点を探求するドキュメンタリーシリーズ、レビューやブログを制作しています。LA拠点のクリエイターは、今週In the NVIDIA Studioで彼女のAIパワードワークフローを紹介し、彼女の苗字に韻を踏む「peachy（素晴らしい）」と表現しました。 Dietschyは最近のビデオで、5つのAIツールがNVIDIA Studioテクノロジーによって可能になり、100時間以上の作業時間を節約できたことを説明しました。「外出先で3Dレンダリングを行う場合、専用のNVIDIA RTX GPUは必須です。」- Sara Dietschy 彼女は、GeForce RTX 40シリーズGPUによって駆動されるノートパソコン上で実行されるこれらのツールが、非線形編集を煩雑にする手動作業を解決する実用的なアプローチを示しています。DaVinci Resolveソフトウェア内のAI Relighting、Video…

焼け落ちた炎：スタートアップが生成AI、コンピュータビジョンを融合して山火事と戦う

カリフォルニアの大規模な山火事によって空がオレンジ色に変わったとき、あるスタートアップはコンピュータビジョンと生成AIを融合して対抗した。「2020年の山火事では、非常に個人的な問題になったため、我々は消防当局にどのように支援できるか尋ねました」と、コンピュータビジョンのシリコンバレーのリーダーであるChoochのトルコ生まれのCEOであるエムラー・グルテキンは語った。カリフォルニアの公益事業および消防サービスによると、既存の山火事検出システムから週に最大2,000件の誤検知が発生していた。誤った予測は、霧、雨、レンズの汚れなどから来ていた。そこで、Choochはパイロットプロジェクトで、消防用のカメラネットワークに火災検出ソフトウェアをリンクさせた。15分ごとにスナップショットを分析して、煙や火災の兆候を探した。生成AIがコンピュータビジョンを強化するその後、ChoochのCTOであるエムラーの兄でありソフトウェアの達人でもあるハカン・グルテキン率いるチームがアイデアを出した。彼らは、各画像の説明を自動的に作成する生成AIツールを作成しました。これにより、レビュアーが煙が存在するかどうかを識別できるようになりました。誤検知は、週に2,000件から8件に減少しました。 Choochは、悪天候や汚れたカメラレンズでも煙や火災を検出できます。「消防署長たちは、モニタリングセンターでこの技術を導入し、何ができるかに興奮していました」と、Choochの社長であるマイケル・リュウは、最近のウェビナーでこのプロジェクトについて説明しました。 Choochの生成AIツールにより、カリフォルニアのカーン郡の消防士たちは、リアルタイムでアラートが表示されるスマートフォンやPCのダッシュボードを使用して山火事を素早く検出できます。 2020年、カリフォルニアでは9,900件の山火事が発生し、4.3百万エーカーの森林を焼失し、190億ドルの損失を被りました。1つの火災を制御下におさめることで、50年間の山火事検出システムの費用が回収できると、同社は推定しています。ジェンAIのビジョン ChoochのCEOは、これが今後の展開になると語っています。エムラー・グルテキン「大規模言語モデルとコンピュータビジョンの融合により、よりパワフルで正確な製品を容易に展開できるようになります」とグルテキンは語りました。たとえば、公益事業は、ソフトウェアをドローンや固定カメラに接続して、コンデンサの腐食や電力線に侵入する植生を検出することができます。この技術は、Choochが山火事の検出と戦闘に関する1100万ドルのXprizeチャレンジに参加することでさらに検証される可能性があります。スポンサーには、PG&EやNVIDIAと別の協力関係で山火事を予測し対応するAIラボを構築しているロッキード・マーティンが含まれています。 PCやスマートフォンのダッシュボードでは、Choochのソフトウェアからのリアルタイムアラートが更新されます。 Choochは、製造業、小売業、セキュリティなどの様々な課題にその技術を適用しています。例えば、あるメーカーは、製品が出荷される前に欠陥を検出するためにChoochのモデルを使用しています。欠陥を20%削減するだけで、システムの費用が何倍にもなります。パートナーシップの始まり 2019年に、米国政府の潜在的な顧客が、NVIDIA GPU上で計画しているエッジ展開に対するサポートを求めました。Choochは、先進的なスタートアップを育成する無料のプログラムであるNVIDIA Inceptionに参加しました。…

Learn more about Search Results 9 - Page 533