Learn more about Search Results MPT - Page 34

Google AIは、屋外での人間の視点によるシーン理解のためのマルチ属性ビデオデータセットであるSANPOを導入しました

自動運転などのタスクにおいて、AIモデルは道路や歩道の3D構造だけでなく、道路標識や信号機を識別・認識する必要があります。このようなタスクは、自動車に取り付けられた特殊なレーザーが3Dデータをキャプチャすることで容易に行われます。このようなプロセスは、エゴセントリックシーン理解と呼ばれ、自身の視点から環境を理解することを意味します。問題は、エゴセントリックな人間のシーン理解に適用できる公開データセットが自動運転領域を超えて存在しないことです。 Googleの研究者たちは、人間のエゴセントリックなシーン理解のためのマルチ属性ビデオデータセットであるSANPO(Scene understanding, Accessibility, Navigation, Pathfinding, Obstacle avoidance)データセットを導入しました。SANPOには、SANPO-RealとSANPO-Syntheticの2つの実世界データと合成データが含まれています。SANPO-Realは多様な環境をカバーしており、マルチビュー手法をサポートするために2つのステレオカメラからのビデオが含まれています。実データセットには、15フレーム/秒(FPS)でキャプチャされた11.4時間のビデオと密な注釈が含まれています。 SANPOは、エゴセントリックな人間のシーン理解のための大規模なビデオデータセットであり、密な予測注釈を持つ60万以上の実世界および10万以上の合成フレームから成り立っています。 Googleの研究者たちは、プライバシー保護を優先しています。彼らは現地、市、および州の法律に従ってデータを収集しています。また、注釈のためにデータを送信する前に、顔や車両ナンバープレートなどの個人情報を削除するようにしています。 ビデオのキャプチャ中のモーションブラー、人間の評価ミスなどの欠点を克服するために、SANPO-Syntheticが導入されました。研究者は、実世界の環境に合わせて最適化された高品質な合成データセットを作成するために、Parallel Domainと提携しました。SANPO-Syntheticには、バーチャル化されたZedカメラを使用して記録された1961のセッションが含まれており、ヘッドマウントとチェストマウントの位置の均等な分布があります。 合成データセットと一部の実データセットは、パノプティックインスタンスマスクを使用して注釈が付けられました。SANPO-Realでは、フレームごとに20を超えるインスタンスがあるのはわずかです。それに対して、SANPO-Syntheticには実データセットよりもずっと多くのインスタンスが含まれています。 この分野での他の重要なビデオデータセットには、SCAND、MuSoHu、Ego4D、VIPSeg、Waymo Openなどがあります。SANPOはこれらのデータセットと比較され、パノプティックマスク、深度、カメラ姿勢、マルチビューステレオ、実データと合成データを兼ね備える最初のデータセットです。SANPOの他に、パノプティックセグメンテーションと深度マップを兼ね備えたデータセットはWaymo Openだけです。 研究者は、SANPOデータセット上で2つの最先端モデル、BinsFormer(深度推定)とkMaX-DeepLab(パノプティックセグメンテーション)を訓練しました。彼らは、このデータセットは両方の密な予測タスクにとって非常に挑戦的であることを観察しました。また、合成データセットの方が実データセットよりも精度が高いことも確認されました。これは、現実世界の環境が合成データよりも複雑であるためです。さらに、セグメンテーション注釈においては、合成データの方がより正確です。 人間のエゴセントリックなシーン理解のデータセットの不足に対処するために導入されたSANPOは、実世界と合成データセットの両方を網羅しており、密な注釈、マルチ属性の特徴、パノプティックセグメンテーションと深度情報のユニークな組み合わせによって他のデータセットとは異なる存在です。さらに、研究者たちのプライバシーへの取り組みは、視覚障害者のための視覚ナビゲーションシステムの開発をサポートし、高度な視覚シーン理解の可能性を広げるために、このデータセットを他の研究者に提供することができます。

「Microsoft AIが意図せずに秘密の情報を公開し、3年間にわたって38TBの機密データへのアクセス権を提供しました」

「過剰供給されたSASトークンが、約3年間にわたってGitHub上で38TBもの大量の個人データを公開していた物語」

「DiffPoseTalk(デフポーズトーク)をご紹介:新しい音声対応3Dアニメーション人工知能フレームワーク」

音声による表現アニメーションは、コンピュータグラフィックスと人工知能の交差点で複雑な問題であり、話し言葉の入力に基づいてリアルな顔のアニメーションとヘッドポーズを生成することを意味します。このドメインにおける課題は、話し言葉と顔の表情の複雑な多対多のマッピングから生じます。個々の人は異なる話し方を持っており、同じ文はトーン、強調、および関連する顔の表情の変化によって表現される様々な方法で述べることができます。さらに、人間の顔の動きは非常に複雑で微妙ですので、話し言葉だけから自然なアニメーションを作成することは困難な課題です。 近年、研究者たちによってさまざまな手法が試みられ、音声による表現アニメーションの複雑な課題に取り組まれています。これらの手法は一般的に、音声と顔の表情の複雑なマッピングを学習するための高度なモデルとデータセットに頼っています。重要な進展がなされていますが、人間の表現や話し方の多様性と自然さを捉えるという点では改善の余地がまだあります。 この分野で、DiffPoseTalkは先駆的な解決策として浮上しています。専門の研究チームによって開発されたDiffPoseTalkは、音声による表現アニメーションのフィールドを変革するために拡散モデルの優れた能力を活用しています。既存の手法が多様で自然なアニメーションを生成するのに苦労するのに対し、DiffPoseTalkは直接的にこの課題に取り組むために拡散モデルの力を利用しています。 DiffPoseTalkは拡散ベースのアプローチを採用しています。フォワードプロセスでは、顔の表情やヘッドポーズなどの初期データサンプルにガウスノイズを系統的に導入し、注意深く設計された分散スケジュールに従います。このプロセスは、話し言葉中の人間の顔の動きの固有の変動を模倣しています。 DiffPoseTalkの真の魔法は、逆プロセスで展開されます。フォワードプロセスを支配する分布はデータセット全体に依存するため、不可解ですが、DiffPoseTalkは巧妙にノイズ除去ネットワークを用いてこの分布を近似します。このノイズ除去ネットワークは、ノイズの観測に基づいてクリーンなサンプルを予測するために厳密なトレーニングを受け、拡散プロセスを効果的に逆にします。 生成プロセスを正確に制御するために、DiffPoseTalkには話し方エンコーダが組み込まれています。このエンコーダは、短いビデオクリップから個人の独特な話し方をキャプチャするために設計されたトランスフォーマーベースのアーキテクチャを持っています。モーションパラメータのシーケンスからスタイル特徴を抽出することで、生成されるアニメーションが話者の独自のスタイルを忠実に再現することを保証します。 DiffPoseTalkの最も注目すべき点の一つは、多様性とスタイルを具現化する豊富なスペクトラムの3D顔のアニメーションとヘッドポーズを生成するという固有の能力です。DiffPoseTalkは、拡散モデルの潜在的な能力を活用して多様な形態の分布を再現することで、様々な顔の表情とヘッドの動きを生成することができます。これにより、人間のコミュニケーションの微妙なニュアンスを包括的に表現することができます。 パフォーマンスと評価の観点では、DiffPoseTalkは顕著に際立っています。生成された顔のアニメーションの品質を測定する重要な指標の一つは、各フレームのすべての口の頂点に対する最大L2エラーによるリップシンクです。DiffPoseTalkは常に高度に同期されたアニメーションを提供し、仮想キャラクターの口の動きが話された言葉に合っています。 さらに、DiffPoseTalkは個々の話し方を忠実に再現する能力にも優れています。これにより、生成されるアニメーションがオリジナルの話者の表現や言動を忠実に反映し、アニメーションに真正性の一層を加えることができます。 さらに、DiffPoseTalkによって生成されるアニメーションは、その本来の自然さが特徴です。顔の動きに滑らかさが漂い、人間の表現の微妙なニュアンスを巧みに捉えています。この固有の自然さは、現実的なアニメーション生成における拡散モデルの有効性をより強調しています。 結論として、DiffPoseTalkは、音声による表現アニメーションの画期的な手法として登場し、音声入力を多様なスタイルの顔のアニメーションやヘッドポーズにマッピングするという複雑な課題に取り組んでいます。拡散モデルと専用の話し方スタイルエンコーダを活用することで、DiffPoseTalkは人間のコミュニケーションの数多くの微妙なニュアンスを的確に捉えることができます。AIとコンピュータグラフィックスが進歩する中で、私たちは楽しみにしています。将来的には、仮想のパートナーやキャラクターが人間の表現の微妙さと豊かさを備えて生命を吹き込まれる日が来ることを。

「良い説明がすべてです」

私は大規模な言語モデル(LLM)をしばらく使っていますが、個人のプロジェクトや日常の仕事の一環として使用しています多くの人々と同様に、これらのパワフルな機能に興奮しています...

『プロンプトブリーダーの内部:Google DeepMindの新しい自己改善プロンプト技術』

「論理的思考と即座の進化・最適化が、大規模言語モデル(LLM)における次の重要なフロンティアとして認識されています私たちはみな、AutoGPTやBabyAGIのようなプロジェクトに魅了されてきました...」

ハスデックスとステーブルディフュージョン:2つのAI画像生成モデルを比較

「HasdxとStable Diffusionは、さまざまなユースケース、コスト、機能などを考慮して、最高のテキストから画像への変換モデルの一部として、どのように優れているのか」

「LLM評価のガイド:設定と重要な指標」

大規模な言語モデル(LLM)は、開発者やビジネスリーダーにとって、消費者への新たな価値創造において非常に優れたツールです彼らは個別の推奨事項をし、非構造化データ間の翻訳を行います...

「機械学習に正しさを取り戻そう」

研究論文は機械学習の領域で新しい発見を伝える主な方法ですしかし、論文の結果が再現できないことはよくあることであり、その理由が明確ではありません...

無料でニュースレターを成長させる4つの方法

これらのニュースレターの成長戦略の最も素晴らしい点は、聴衆が必要なく、完全に無料であることです

SAPシステムとのデータ統合のマスタリングと迅速なエンジニアリング

前回の発表では、データエンジニアリングからプロンプトエンジニアリングへと進み、ChatGPTを使用してデータの準備タスクを解決する方法を示しました受け取ったフィードバックに加えて、他の…

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us