Learn more about Search Results 3 - Page 12

オムニヴァースへ:オープンUSDの強化によるAutodesk Mayaでの3Dワークフローは、フェレットの物語のようになる

エディター注:この投稿は、オムニバースへの参加の一部であり、アーティスト、開発者、企業が最新のOpenUSDおよびNVIDIAオムニバースを使用してワークフローを変革する方法に焦点を当てています。 3Dアートとデザインにおいて、効率的なワークフローは創造的なビジョンを迅速に実現するために不可欠です。 ユニバーサルシーンディスクリプション、またはOpenUSDは、これらのワークフローを強化するフレームワークであり、3Dの世界内での記述、組成、シミュレーション、コラボレーションを統一かつ拡張可能に提供します。 OpenUSDは、メディアおよびエンターテイメント、建築、エンジニアリング、製品デザイン、製造にわたるAutodeskの製品およびソリューションの中核技術です。 今週のAU 2023カンファレンスで発表された、最新のOpenUSDの更新により、Autodesk Mayaのアーティストや技術関係者はより高い制御と効率でOpenUSDアセットを作成および操作することができるだけでなく、より効率的かつ正確な3Dワークフローを保証することができます。 MayaとOpenUSDでデジタルと現実の世界をつなぎます 多くのクリエイターは、MayaとOpenUSDを使用して自分たちの3Dワークフローを推進しています。 Karol Osinskiは、ユニークで大胆かつエレガントなプロジェクトに取り組む建築およびデザイン会社であるS20Mの3Dアーティストです。建築の視覚化を作成する際の最大の課題は、デジタルの世界を現実の世界と一致させることです。 USDおよびMaya、SideFX Houdini、Epic GamesのUnreal Engineなどのクリエイティブツールを使用して、Osinskiはクライアントのために高品質なビジュアルを作成しながら建築ワークフローを加速しています。 オシンスキーのアッパーイーストサイドの20階テラスからの全景 「OpenUSDは、これまでにない形で異なるツールをつなぐ可能性を提供しています」とオシンスキーは述べています。「USDが初めてのユーザーにとってどれだけアクセスしやすく、デザインを非常に複雑にする機会を開くかが好きです」 「サーワード」ニースタットは、アニメーションと3Dの教育をビデオチュートリアルと業界トレーニングを通じてよりアクセス可能にすることを目指しています。彼のユニークなアニメーションワークフローの最初のステップは、カメラでアニメーションを行うことです。それからMayaでアニメーション作業を始める前に、Blenderを含む他の3DソフトウェアにUSDでエクスポートします。 サーワードのVFXロボットアニメーションの制作 NVIDIAの3DアーティストもMayaとOpenUSDのパワーを体験しています。テクニカルスペシャリストであるLee Fraserは、「フェレットテイルプロジェクト」をリードし、OpenUSDとジェネラティブAIによって可能になるキャラクターの作成とアニメーションのワークフローを紹介しました。 デモを作成するために、Fraserと彼のチームは、Blender、Autodesk Maya、Reallusion Character…

『Generative AIがサイバーセキュリティを強化する3つの方法』

人間のアナリストは、サイバーセキュリティ攻撃の速度と複雑さに対して効果的に防御することができなくなっています。データの量が手作業でスクリーニングするには単に大きすぎます。 ジェネラティブAIは、私たちの時代で最も変革的なツールであり、デジタルの柔術のようなものです。これにより、データの脅威が企業を圧倒する力を、彼らの防御を強化する力に変えることができます。 ビジネスリーダーはこの機会を待ち望んでいるようです。最近の調査では、CEOたちはサイバーセキュリティを彼らのトップ3の懸念事項の一つとして挙げ、競争上の優位性を提供する主導技術としてジェネラティブAIを見ています。 ジェネラティブAIはリスクと利益の両方をもたらします。以前のブログでは、エンタープライズAIのセキュリティ確保のプロセスを開始するための6つの手順を説明しました。 以下はジェネラティブAIがサイバーセキュリティを強化する3つの方法です。 開発者から始める まず、開発者にセキュリティの共同パイロットを与えましょう。 セキュリティは全員が関与するものですが、セキュリティの専門家ではない人もいます。そのため、これは最も戦略的な始まりの場所の一つです。 セキュリティを強化する最善の方法は、開発者がソフトウェアを作成するフロントエンドです。セキュリティの専門家としてトレーニングされたAIパワードのアシスタントは、開発者が彼らのコードがセキュリティのベストプラクティスに従っていることを確認するのに役立ちます。 AIソフトウェアアシスタントは、以前に審査されたコードを入力することで毎日賢くなることができます。それは前の作業から学び、開発者をベストプラクティスにガイドするのに役立ちます。 ユーザーに利益をもたらすため、NVIDIAはこのような共同パイロットやチャットボットを構築するワークフローを作成しています。この特定のワークフローは、NVIDIA NeMoからのコンポーネントを使用し、大規模な言語モデルの構築とカスタマイズのためのフレームワークです。 ユーザーが独自のモデルをカスタマイズするか、商業サービスを使用するかに関係なく、セキュリティアシスタントはサイバーセキュリティにジェネラティブAIを適用するための最初のステップに過ぎません。 脆弱性を分析するエージェント 次に、ジェネラティブAIが既知のソフトウェア脆弱性の海を航海するのを助けましょう。 いつでも企業は、既知の脆弱性を軽減するために何千ものパッチから選択する必要があります。それはすべてのコードが数十、数千の異なるソフトウェアブランチやオープンソースプロジェクトにルートがあるためです。 脆弱性分析に特化したLLMは、会社が最初に実装すべきパッチを優先順位付けするのに役立ちます。それは、会社が使用しているソフトウェアライブラリや、対応している機能やAPIに関するポリシーを読み取るための特に強力なセキュリティアシスタントです。 このコンセプトをテストするために、NVIDIAは脆弱性に対してソフトウェアコンテナを分析するためのパイプラインを構築しました。このエージェントは高い精度でパッチが必要なエリアを特定し、人間のアナリストの作業を最大4倍高速化しました。 結論は明確です。脆弱性分析において、ジェネラティブAIを最初の応答者として従事させる時が来ています。 データギャップを埋める 最後に、ジェネラティブAIを利用して、サイバーセキュリティのデータギャップを埋めるためにLLMを使用しましょう。 ユーザーはデータ侵害について情報を共有することは滅多にありません。それにより、攻撃を予測するのが困難になります。 そこで登場するのがLLMです。ジェネラティブAIモデルは、これまでに見たことのない攻撃パターンをシミュレートするための合成データを作成できます。このような合成データは、トレーニングデータのギャップを埋めることもできますので、機械学習システムが攻撃に対してどのように防御するかを学ぶことができます。 安全なシミュレーションを行う…

「3Dで身体のポーズを解釈するために、メガネがソナーとAIを使用します」

コーネル大学の研究者たちは、聞こえない音波と人工知能を使った着用型デバイスを開発しましたこのデバイスは、ユーザーの上半身の動きを三次元で追跡することができます

ビジネスを革新する3つの素晴らしい方法

世界中の企業はさまざまな要素で異なります持続可能性を重視する企業もあれば、効果的なソリューションを提供することに重点を置く企業もあります企業の目標は多くの要因に基づいて異なるかもしれませんが、基本的なレベルでは多くのことが同じですすべての企業が求める基本的な要件の1つは、さらなる学びです...ビジネスを革新するための素晴らしい3つの方法 詳細を見る »

ドリームクラフト3D:ブートストラップされた拡散先行での階層的3D生成

「生成AIモデルは、AI業界内でしばらくの間、注目のトピックとなっています2D生成モデルの最近の成功は、私たちが今日の視覚コンテンツを作成するために使用する方法を築き上げましたAIコミュニティは2D生成モデルで驚異的な成功を収めましたが、3Dコンテンツの生成はまだ…」

「2023年におけるトレーニング・テスト・検証分割の包括的なガイド」

イントロダクション 監督学習の目標は、新しいデータセットで良いパフォーマンスを発揮するモデルを構築することです。問題は、新しいデータを持っていないかもしれないが、トレイン・テスト・バリデーションの分割のような手順でこれを体験することができるということです。 データセットでモデルのパフォーマンスを見ることは興味深いですよね。そうです!献身的に取り組んでいることが、効率的な機械学習モデルの作成と効果的な結果の生成にどのように活かされているかを確認するのに最適な側面の一つです。 トレイン・テスト・バリデーションの分割とは何ですか? トレイン・テスト・バリデーションの分割は、機械学習とデータ分析において特にモデル開発中に基本的な役割を果たします。これは、データセットをトレーニング、テスト、バリデーションの3つのサブセットに分割することを意味します。トレイン・テストの分割は、新しいデータセットでモデルのパフォーマンスを確認するためのモデル検証プロセスです。 トレイン・テスト・バリデーションの分割は、機械学習モデルが新しい未知のデータに一般化する能力を評価します。また、過学習を防ぎます。過学習とは、モデルがトレーニングデータ上でうまく機能するが、新しいインスタンスに一般化できない状態です。バリデーションセットを使用して、開発者はモデルのパラメータを反復的に調整して、未知のデータでのパフォーマンスを向上させることができます。 機械学習におけるデータ分割の重要性 データ分割は、データセットをトレーニング、バリデーション、テストのサブセットに分割することを意味します。データ分割の重要性は以下の側面にわたります: トレーニング、バリデーション、テスト データ分割は、データセットをトレーニングセット、モデルのパラメータを追跡して過学習を回避するためのバリデーションセット、新しいデータでのモデルのパフォーマンスをチェックするためのテストセットの3つのサブセットに分割します。各サブセットは、機械学習モデルの開発の反復プロセスで独自の目的を果たします。 モデルの開発と調整 モデルの開発フェーズでは、トレーニングセットはアルゴリズムにデータ内のさまざまなパターンを示すために必要です。モデルはこのサブセットから学習し、エラーを最小化するためにパラメータを調整します。バリデーションセットはハイパーパラメータの追跡中に重要であり、モデルの構成を最適化するのに役立ちます。 過学習の防止 過学習は、モデルがトレーニングデータを適切に学習し、ノイズや関連性のないパターンを捉える状態です。バリデーションセットはチェックポイントとして機能し、過学習の検出に役立ちます。異なるデータセットでモデルのパフォーマンスを評価することで、過学習を防ぐためにモデルの複雑性や技術、他のハイパーパラメータを調整することができます。 パフォーマンス評価 テストセットは、機械学習モデルのパフォーマンスにとって重要です。トレーニングとバリデーションの後、モデルはテストセットに対して現実世界のシナリオをチェックします。テストセットでの良好なパフォーマンスは、新しい未知のデータにモデルが成功裏に適応したことを示します。このステップは、モデルを実際のアプリケーションに展開するための信頼を得るために重要です。 バイアスと分散の評価 トレイン・テスト・バリデーションの分割は、バイアスのトレードオフを理解するのに役立ちます。トレーニングセットはモデルのバイアスに関する情報を提供し、固有のパターンを捉えます。一方、バリデーションとテストセットはばらつきを評価し、データセットの変動に対するモデルの感度を示します。適切なバイアスと分散のバランスをとることは、異なるデータセット全体でうまく一般化するモデルを実現するために重要です。 頑健性のためのクロスバリデーション トレイン・バリデーション・テストのシンプルな分割だけでなく、k-foldクロスバリデーションのような手法は、モデルの頑健性をさらに高めます。クロスバリデーションは、データセットをk個のサブセットに分割し、k-1個のサブセットでモデルをトレーニングし、残りの1つでバリデーションを行います。このプロセスをk回繰り返し、結果を平均化します。クロスバリデーションは、データの異なるサブセットでのモデルのパフォーマンスをより包括的に理解するのに役立ちます。 モデルのパフォーマンスにおけるデータ分割の重要性 データ分割の重要性は以下の目的であります: モデルの汎化性評価 モデルはトレーニングデータだけを記憶すべきではありません、汎化性能も重要です。データ分割により、テスト用のデータセットを作成し、モデルが新しいデータに対してどれくらい上手く動作するかを確認することができます。専用のテストデータセットがないと、過学習のリスクが高まります。モデルがトレーニングデータに過度に適応すると、そのリスクを軽減するために、データ分割が真の一般化能力を評価します。…

「Zero123++:一枚の画像から一貫したマルチビュー拡散ベースモデルへ」

この数年間、新たなAI生成モデルは性能、効率、生成力の面で急速に進化してきましたこれらのモデルは広範なデータセットと2D拡散生成手法を活用しており、2Dおよび一部の3Dメディアコンテンツ(テキスト、画像、ビデオなど)の様々な形式を生成する能力が非常に高いのです

AdobeのAI研究が提案する「ラージリコンストラクションモデル(LRM)」は、単一の入力画像からオブジェクトの3Dモデルを5秒以内に予測するというものです

多くの研究者たちは、任意の2D画像を瞬時に3Dモデルに変換できる世界を想像してきました。この分野の研究は、これらの長年の目標を達成するための一般的かつ効率的な方法を見つけるという願望に基づいており、産業デザイン、アニメーション、ゲーム、拡張現実/仮想現実などのさまざまな応用が考えられています。 初期の学習ベースの手法は、一目での3Dジオメトリの曖昧さにより、一部のカテゴリにおいてはうまく機能します。最近の研究は、DALL-EやStable Diffusionなどの画像生成の最新の進展に触発されて、2D拡散モデルの驚くべき一般化の可能性を活用するために、マルチビューの監督学習を実現することを目指しています。しかし、これらの手法の多くは慎重なパラメータ調整と正則化を必要とし、最初に使用された事前学習済みの2D生成モデルによって制約されます。 Adobe Researchとオーストラリア国立大学の研究者たちは、Large Reconstruction Model(LRM)を使用して単一の画像を3Dに変換することが可能となりました。提案されたモデルは、単一の画像からのデータ駆動型3Dオブジェクト表現学習のための大規模なトランスフォーマベースのエンコーダ・デコーダアーキテクチャを使用しています。画像がシステムに入力されると、NeRFの三面図の表現が出力されます。具体的には、LRMは、事前学習済みのビジュアルトランスフォーマDINOを画像エンコーダとして使用して画像特徴を生成し、その後、画像から三面図へのトランスフォーマデコーダを学習して、2D画像の特徴を3D三面図にattention的に投影し、空間構造化された三面図トークン間の関係を自己注意的にモデリングします。デコーダからの出力トークンは、最終的な三面図特徴マップにreshapeされてupsampledされます。その後、追加の共有マルチレイヤパーセプトロン(MLP)を使用して、各ポイントの三面図的特徴をデコードし、その色と密度を取得し、ボリュームレンダリングを実行することで、任意の視点から画像を生成することができます。 LRMは、設計がよく考えられているため高度にスケーラブルで効率的です。Triplane NeRFは、ボリュームやポイントクラウドのような他の表現に比べて計算的に効率的であり、シェイプEのトークン化したNeRFのモデルの重みと比較して、画像への近さが優れています。さらに、LRMは、新しいビューでのレンダリングされた画像とグラウンドトゥルー画像との差を最小化するだけで訓練されるため、過剰な3D感知的な正則化や繊細なハイパーパラメータ調整は必要ありません。そのため、モデルは訓練時に非常に効率的で、さまざまなマルチビュー画像データセットに適応可能です。 LRMは、500億個以上の学習可能なパラメータと、さまざまなカテゴリからの約100万個の3Dシェイプとビデオで構成されるトレーニングデータを持つ、最初の大規模な3D再構築モデルです。これは、より最近の手法が比較的浅いネットワークと小さなデータセットを使用しているのに対して、サイズが大幅に増加しています。実験結果は、LRMが実世界および生成モデルの写真から高品質な3D形状を再構築できることを示しています。また、LRMはダウンサイジングに非常に便利なツールです。 チームは、将来の研究において次の領域に焦点を当てる予定です: 最もシンプルなトランスフォーマベースの設計を使用して、モデルのサイズとトレーニングデータを増やす。 3Dのマルチモーダル生成モデルに拡張する。 3Dデザイナーが行っていた一部の作業は、LRMのような画像から3D再構成モデルの助けを借りることで自動化される可能性があります。また、これらの技術は創造的な分野における成長とアクセシビリティを高める可能性があることにも注意することが重要です。

3Dボディモデルに音声が付きました:Meta AIが完全な人体に対して正確な3D空間音響を生成できる人工知能モデルを紹介

知識とコンピューテーションヴィジョン、人工知能(AI)の補完分野の進展により、人間の行動を再現し理解するインテリジェントシステムの持続的な発展がもたらされてきました。マシンラーニングモデルは、現実と仮想のギャップを埋める間に非常に人気が高まっています。コンピューテーションヴィジョンの分野では、3D人体モデリングが大きな注目を浴びていますが、音響側のモデリングや音声や身体の動きから3D空間オーディオを生成する課題はまだ議論の対象です。常に注目されてきたのは、人体の人工的表現の視覚的忠実度です。 人間の知覚は、聴覚と視覚のヒントを組み合わせて環境を理解するため、マルチモーダルな性質を持っています。3Dサウンドを正確にシミュレートすることは、3Dの世界で存在感と没入感を作り出すために非常に重要です。これらの課題に対処するため、Shanghai AI LaboratoryとMeta Reality Labs Researchの研究者チームは、人間の全身に対して正確な3D空間オーディオ表現を生成するモデルを提案しました。 提案された技術は、ヘッドマウントマイクロフォンと人体の姿勢データを使用して、精確な3D空間音響を合成すると述べられています。ケーススタディでは、拡張現実と仮想現実(AR/VR)を組み合わせたテレプレゼンスシナリオに焦点を当て、ユーザーはフルボディアバターでコミュニケーションを行います。ヘッドマウントマイクロフォンからのエゴセントリックオーディオデータとアバターをアニメートするために使用される身体の姿勢データが入力の例として使用されています。 音の空間化には、音源が既知であり、そこに妨害がないと仮定する現在の手法が前提とされています。提案された手法では、身体の姿勢データを使用して、さまざまなノイズのソースを区別し、正確に空間化された信号を生成するマルチモーダルネットワークをトレーニングすることで、これらの問題を解決しています。身体を取り囲む音響領域が出力であり、7つのヘッドマウントマイクロフォンからのオーディオと被験者の姿勢が入力になります。 研究チームは実証評価を行い、適切な損失関数でトレーニングされた場合に、モデルが体の動きから生じる音場を信頼性があり確実に再現できることを示しました。モデルのコードとデータセットはインターネット上で一般に利用可能で、この分野でのオープン性、繰り返し可能性、および追加の開発を促進しています。GitHubリポジトリはhttps://github.com/facebookresearch/SoundingBodiesでアクセスできます。 研究チームによる作業の主な貢献は、以下のように要約されています。 ヘッドマウントマイクロフォンと身体のポーズを使用して、人体の現実的な3D音響空間をレンダリングする独自の手法を紹介しました。 ボディポーズと緻密な損失関数の重要性を示す包括的な実証評価が共有されました。 研究チームが作成した新しいデータセットが、345個のマイクの配列からの空間オーディオ録音とマルチビューの人体データを組み合わせています。

Google AIが簡単なエンドツーエンドの拡散ベースのテキスト読み上げE3-TTSを提案します:拡散に基づくシンプルで効率的なエンドツーエンドのテキスト読み上げモデルに基づくものです

機械学習において、拡散モデルは画像や音声生成のタスクによく使われる生成モデルです。拡散モデルは、複雑なデータ分布をより単純な分布に変換する拡散プロセスを使用します。その主な利点は、特に画像や音声合成のようなタスクで高品質な出力を生成できることにあります。 テキスト・トゥ・スピーチ(TTS)システムの文脈では、拡散モデルの適用により、従来のTTSシステムと比べて明らかな改善が見られました。これは、中間的な特徴量の品質に対する強い依存や、展開、トレーニング、設定手続きに伴う複雑さなど、既存のシステムが抱える問題を解決する能力によるものです。 Googleの研究チームは、E3 TTS:イージーエンドツーエンド拡散ベースのテキスト・トゥ・スピーチを提案しました。このテキスト・トゥ・スピーチモデルは、拡散プロセスを利用して時間構造を維持します。このアプローチにより、モデルはプレーンなテキストを入力として受け取り、直接オーディオの波形を生成することができます。 E3 TTSモデルは、非自己回帰的な方法で入力テキストを効率的に処理し、連続処理を必要とせずに直接波形を出力することができます。さらに、話者の識別とアライメントの決定は、拡散中に動的に行われます。このモデルは、2つの主要なモジュールから構成されています。入力テキストから関連情報を抽出するために、事前学習済みのBERTモデルが使用され、BERTの出力を処理するために拡散UNetモデルが使用されます。拡散UNetモデルは、初期のノイズのある波形を反復的に洗練し、最終的な生波形を予測します。 E3 TTSは、オーディオの波形を生成するための反復的な洗練プロセスを採用しています。拡散プロセスを使うことで、追加の条件付け情報なしに、与えられたオーディオ内の柔軟な潜在的な構造をモデル化することができます。 E3 TTSは、事前学習済みのBERTモデルに基づいて構築されています。また、このシステムは音素やグラフェムのような音声表現に頼らずに動作します。BERTモデルはサブワード入力を取り、その出力は1D U-Net構造によって処理されます。これには、ダウンサンプリングとアップサンプリングのブロックが含まれ、リジッドな接続で接続されています。 E3 TTSは、現在の大規模言語モデルの最新の開発を活用し、事前学習済みのテキスト言語モデルからのテキスト表現を使用します。E3 TTSは、テキスト入力を使用して生成プロセスを合理化します。 このモデルはテキスト入力を使用して多言語でトレーニングすることができるため、システムの適応性が向上します。 E3 TTSで使用されるU-Net構造は、リジッドな接続で接続された一連のダウンサンプリングとアップサンプリングのブロックで構成されています。BERTの出力からの情報抽出を改善するために、クロスアテンションはトップのダウンサンプリング/アップサンプリングブロックに組み込まれています。下部のブロックではアダプティブソフトマックス畳み込みニューラルネットワーク(CNN)カーネルが使用され、そのカーネルサイズはタイムステップと話者によって決定されます。話者とタイムステップの埋め込みはFeature-wise Linear Modulation(FiLM)を介して結合され、チャネルごとのスケーリングとバイアスの予測を含みます。 E3 TTSのダウンサンプラーは、ノイズが多い情報を洗練し、24kHzからエンコードされたBERTの出力と同じ長さのシーケンスに変換することで、全体的な品質を大幅に向上させる重要な役割を果たします。逆に、アップサンプラーは、入力波形と同じ長さのノイズを予測します。 まとめると、E3 TTSは高品質なオーディオを生成する能力を示し、この分野の注目に値する品質レベルに近づいています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us