Search Results Yi

思っているベイダーではありません 3D VADERは3Dモデルを拡散するAIモデルです

イメージ生成はこれまでにないほど簡単になりました。生成型AIモデルの台頭により、プロセスは本当に簡単になりました。まるでデザイナーがあなたのために働いているかのようで、あなたが見たいイメージを生成するためにガイドするだけで済みます。同じことは画像編集にも当てはまります。これらの生成モデルは新しい画像を生成するだけでなく、最近の研究によって提供された高度なアップグレードにより既存の画像の編集にも使用することができます。これらすべては、ノイズ除去拡散モデルのおかげで可能になりました。彼らは画像生成領域を完全に変革しました。これは私たちがこの分野で目撃した最も重要な進歩の一つでした。これらのモデルは画像、音声、および動画のアプリケーションに適用されています。しかし、もし気づいているなら、ここに1つの要素が欠けています。第三の次元はどこにあるのでしょうか？イメージ生成は既に写真のような現実感を持つレベルに達しており、ビデオや音声の生成にも多くの試みが行われており、日々向上しています。非常に現実的なレベルに達することも近い将来予想されます。しかし、なぜ3Dオブジェクトの生成についてあまり聞かないのでしょうか？私たちは3Dの世界に生きています。それは静的な3Dオブジェクトと動的な3Dオブジェクトの両方に特徴があります。これにより、2Dと3Dのギャップを埋めることは非常に困難な課題となっています。では、このギャップを埋めようとしている新しい挑戦者3DVADERに会いましょう。 3DVADERは、3D生成モデルの中核的な課題に取り組んでいます。つまり、現代の画像生成技術の素晴らしい能力と3D世界の幾何学的な詳細をシームレスに扱う方法です。 3DVADERは、3Dコンテンツの設計とモデルのトレーニング方法を再考します。以前の方法とは異なり、拡張性と多様性に苦労したものの、この実装はこれらの課題に果敢に取り組み、3Dコンテンツ生成の未来に新しい視点を提供します。 3DVADERは、独自のアプローチでこれを実現しています。トレーニングに従来のオートエンコーダーに依存するのではなく、ボリューメトリックオートデコーダーを導入します。このオートデコーダーは各オブジェクトに1次元ベクトルをマッピングし、3Dの監督不要で幅広いオブジェクトカテゴリに対応します。このアプローチは、レンダリングの一貫性をガイドプリンシプルとして2Dの観測から3D表現を学習します。この新しい表現は可動部位を収容し、非剛体オブジェクトをモデル化するための必要性を満たします。 3DVADERの概要。出典: https://arxiv.org/pdf/2307.05445.pdf 別の問題はデータセットに関するものです。画像と単眼ビデオが最も利用可能なデータを占めているため、堅牢で多目的な3Dデータセットの準備は未解決の課題です。以前のアプローチとは異なり、3DVADERはマルチビュー画像と単眼ビデオを活用して3D感知コンテンツを生成します。トレーニング中に姿勢情報の欠如に対して真実の姿勢、推定された姿勢、または完全に提供されない姿勢情報に対して堅牢性を提供することで、オブジェクトのポーズの多様性の課題を解決します。さらに、3DVADERはさまざまなカテゴリの多様なオブジェクトを対象とするデータセットに対応しており、拡張性の問題に取り組んでいます。 3DVADERは3Dオブジェクトを生成できます。出典: https://snap-research.github.io/3DVADER/ 全体的に、3DVADERは、静的および関節付きの3Dアセットを生成するための新しい手法であり、その中核として3Dオートデコーダーが使用されています。既存のカメラの監視の利用またはトレーニング中にこの情報を学習することができます。最先端の代替手法と比較して、生成の性能が優れています。

新しい研究によって、テキストをスムーズに音声化することができるようになりました | Google

テキスト音声（マルチモーダルモデル）のトレーニングには独自の問題がありますオーディオサンプルレートが高い場合、オーディオのシーケンス長は対応するテキストよりもはるかに長くなりますテキストと…

「説明的なデータの可視化の技術を取り入れる」

データの可視化は、読者に複雑なデータを表現するための強力なツールですさらに一歩進んで、ナラティブの可視化は情報を一連の物語に変換するデータストーリーを作り出すことを可能にします…

データサイエンティストにとって使いやすい空間連続性を定量化するためのバリオグラムチュートリアル

バリオグラムは、空間データの距離に基づく変動性を示すために使用されますバリオグラムを使用して空間の連続性を理解し、モデル化することは重要ですなぜなら、バリオグラムはポイントの推定に使用されるからです…

組合せ最適化によるニューラルネットワークの剪定

Posted by Hussein Hazimeh、Athenaチームの研究科学者、およびMITの大学院生であるRiade Benbakiによる投稿近代的なニューラルネットワークは、言語、数学的推論、ビジョンなど、さまざまなアプリケーションで印象的なパフォーマンスを達成しています。しかし、これらのネットワークはしばしば大規模なアーキテクチャを使用し、多くの計算リソースを必要とします。これにより、特にウェアラブルやスマートフォンなどのリソース制約のある環境では、このようなモデルをユーザーに提供することが実用的ではありません。事前学習済みネットワークの推論コストを軽減するための広く使用されている手法は、いくつかの重みを削除することによる枝刈りですが、これはネットワークの有用性にほとんど影響を与えない方法で行われます。標準的なニューラルネットワークでは、各重みは2つのニューロン間の接続を定義します。したがって、重みが剪定された後、入力はより小さな一連の接続を介して伝播し、より少ない計算リソースを必要とします。元のネットワークと剪定されたネットワークの比較。枝刈り手法は、ネットワークのトレーニングプロセスのさまざまな段階で適用できます。トレーニング後、トレーニング中、またはトレーニング前（つまり、重みの初期化直後）に適用できます。この投稿では、トレーニング後の設定に焦点を当てています。つまり、事前学習済みネットワークが与えられた場合、どの重みを剪定すべきかをどのように決定できるかという問題です。最も一般的な手法の1つは、マグニチュード剪定です。この手法では、最も小さい絶対値を持つ重みを削除します。効率的ではありますが、この手法は重みの削除がネットワークのパフォーマンスに与える影響を直接考慮しません。もう1つの一般的な手法は、最小化された損失関数に対する重みの影響度に基づいて重みを削除する最適化ベースの剪定です。概念的には魅力的ですが、既存の最適化ベースの手法の多くは、パフォーマンスと計算要件の間に深刻なトレードオフがあるようです。粗い近似を行う手法（例：対角ヘッシアン行列を仮定する）はスケーラブル性が高く、パフォーマンスは比較的低いです。一方、より少ない近似を行う手法はパフォーマンスが向上する傾向がありますが、スケーラブル性ははるかに低いようです。「Fast as CHITA: Neural Network Pruning with Combinatorial Optimization」は、ICML 2023で発表された論文で、事前学習済みニューラルネットワークの剪定において、スケーラビリティとパフォーマンスのトレードオフを考慮した最適化ベースのアプローチを開発した方法について説明しています。CHITA（「Combinatorial Hessian-free Iterative Thresholding Algorithm」の略）は、高次元統計、組合せ最適化、およびニューラルネットワークの剪定など、いくつかの分野の進歩を活用しています。たとえば、CHITAはResNetの剪定において最先端の手法よりも20倍から1000倍高速であり、多くの設定で精度を10％以上向上させることができます。貢献の概要 CHITAには、人気のある手法に比べて2つの注目すべき技術的改善点があります：…

「データバージョンコントロール入門」

連続的に更新されるリソース、特に複数のユーザーによって同時に更新される場合、すべての変更を追跡するために監査トレイルが必要ですGitを使用すると、変更をコミットし、作成することができます...

「非構造化データ内のデータスライスの検出」翻訳結果は以下の通りです：「非構造化データ内でデータスライスを見つける」

データスライスは、モデルが異常な動作をするデータの意味のあるサブセットです非構造化データの問題（例：画像、テキスト）に取り組む際に、これらのスライスを見つけることは...

「AIはほとんどのパスワードを1分以内に解読できますAI攻撃からパスワードを保護する方法」

人工知能（AI）は、次の技術革新の波をもたらしています。AIの能力に魅了される一方で、その潜在的なリスクへの懸念も高まっています。ChatGPTのようなAIパワードのチャットボットはタスクを簡素化する一方で、PassGANのようなツールはサイバーセキュリティのリスクを高めています。人々が人工知能を受け入れる中で、進化する環境での潜在的なサイバーセキュリティの落とし穴と、その攻撃から自分自身を守る方法を理解することが重要です。この記事では、AIツールがパスワードのハッキングに使用される方法と、そのような攻撃から安全に守る方法について説明します。また読む: サイバー犯罪者がメールセキュリティを侵害するためにWormGPTを使用する AIの驚異的なパワー AIが私たちの日常生活に浸透することで、驚きと不安が共存しています。AIは成長とイノベーションのための膨大な機会を開放する一方で、対処すべき脆弱性もあります。最近、特にパスワードのセキュリティを危険にさらすAIの潜在能力に注目が集まっています。最近の研究によると、AIは最も一般的に使用されるパスワードのいくつかを60秒以下でクラックすることができることが明らかになりました。また読む: AIパワードのサイバー犯罪ツールの驚異的な増加、FraudGPT 脅威の明らかにされる AIパワードのパスワードクラッキングツールによる脅威の程度は驚くべきものです。サイバーセキュリティ企業であるHome Security Heroesは、この分野でのAIの能力を明らかにする包括的な調査を実施しました。その結果、AIパワードのPassGAN（パスワード生成対抗ネットワーク）などの特殊なAIツールは、単にパスワードを侵害するだけでなく、驚異的な効率でそれを行うことができることが明らかになりました。また読む: DEF CONで悪戯なトリックでAIの脆弱性を暴露するハッカーたち巧妙な方法論画期的なPassGANツールは、機械学習技術である生成的対抗ネットワーク（GAN）を利用しています。過去のデータ侵害から実際のパスワードのパターンと分布を学習し、ユーザーのパスワードを短時間でクラックするために複数の組み合わせを生成することができます。恐ろしい統計この研究の結果は、インターネットユーザー全員に対する警鐘となります。驚くべきことに、一般的なパスワードの半数以上（51％）は60秒以下でクラックされる可能性があります。この割合は急速にエスカレートし、1時間以内には61％に跳ね上がります。さらに驚くべきことに、71％は1日以内にクラックされ、驚異的な81％は1か月以内にクラックされます。また読む: 中国のハッカーがMicrosoft Cloudをハックし、1か月以上検出されなかった防御力の強化この不安を踏まえて、デジタルプレゼンスを保護することはこれまで以上に重要です。研究は、7文字未満のパスワードであっても記号を含める場合でも、6分未満で解除されることを強調しています。どれだけ複雑であっても、数字、大文字と小文字のアルファベット、および記号を含む6文字のパスワードは、PassGANのようなAIによって瞬時にクラックされる可能性があります。また読む:…

スウィン・トランスフォーマー | モダンなコンピュータビジョンタスク

イントロダクション Swin Transformerは、ビジョントランスフォーマーの分野における重要なイノベーションです。トランスフォーマーは、様々なタスクで優れたパフォーマンスを発揮してきました。その中でも、Swin Transformerはコンピュータビジョンのバックボーンとして優れた柔軟性と拡張性を提供し、現代のディープラーニングモデルの要求に応える能力を持っています。このトランスフォーマーのフルポテンシャルを引き出し、その印象的な能力を目の当たりにしましょう。学習目標この記事では、強力な階層的なビジョントランスフォーマーであるSwin Transformerを紹介します。この記事を読み終えることで、以下のことが理解できるようになるでしょう： Swin Transformerの主な特徴コンピュータビジョンモデルのバックボーンとしての応用画像分類、物体検出、インスタンスセグメンテーションなどの様々なコンピュータビジョンタスクにおけるSwin Transformerの利点この記事は、データサイエンスブログマラソンの一環として公開されました。 Swin Transformerの理解 2021年の論文「Swin Transformer: Hierarchical Vision Transformer using Shifted Windows」で、Ze Liu、Yutong…

「機械に学習させ、そして彼らが私たちに再学習をさせる：AIの構築の再帰的性質」

「建築デザインの選択が集団の規範にどのように影響を与えるかを探索し、トレーニング技術がAIシステムを形作り、それが再帰的に人間の行動に影響を与える様子を見てください」

Learn more about Search Results Yi - Page 47