機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索
マルチビューオプティカルイリュージョンの創造に向けた機械学習:ダイナミックな画像変換のためのゼロショット手法探求
アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生成するためには、通常、視覚知覚を理解してだます必要があります。しかし、新しいアプローチが登場し、これらの魅力的な多視点光学錯視を簡単かつ効果的に生成する方法を提供しています。
視覚錯覚を作成するためのさまざまなアプローチが存在しますが、ほとんどは人間がイメージをどのように理解するかについての特定の仮定に依存しています。これらの仮定はしばしば、われわれの視覚体験の本質をときどき捉えるだけの複雑なモデルにつながります。ミシガン大学の研究者たちは、新しい解決策を提案しています。人間が物事を見る方法に基づいたモデルを構築するのではなく、テキストからイメージへの拡散モデルを使用します。このモデルは人間の知覚について何も仮定しません。データのみから学習します。
この手法は、フリップや回転時に変形するイメージなど、古典的な錯視を生成するための新しい方法を提案しています。さらに、ピクセルを並び替えると外観が変化する「視覚アナグラム」と呼ばれる新しい錯視の領域にも進出しています。これには、フリップ、回転、ジグソーパズルのような複数の解を持つより複雑な変換も含まれます。この手法は、3つや4つの視点にまで拡張され、魅力的な視覚変換の範囲が広がっています。
- 機械学習信頼性の向上:異常性がモデルのパフォーマンスと不確実性の定量化を向上させる方法
- メタAIは、リアルタイムに高品質の再照明可能なガウシアンコーデックアバターを構築するための人工知能手法「Relightable Gaussian Codec Avatars」を紹介しますこれにより、新しい表情を生成するためにアニメーションさせることができるハイフィデリティのヘッドアバターが作成されます
- 「機械学習における確率的要素の本質を明らかにする」
この手法が機能するための鍵は、ビューを注意深く選択することです。画像に適用される変換は、ノイズの統計的特性を維持する必要があります。なぜなら、このモデルはランダム、独立、同一分布のガウスノイズを仮定してトレーニングされるからです。
この手法では、画像をさまざまな視点からデノイズするために、拡散モデルを利用して複数のノイズの推定値を生成します。これらの推定値は、逆拡散プロセスの1つのステップを容易にするために組み合わされます。 この論文では、これらの視点の効果を支持する経験的根拠が示され、生成される錯視の品質と柔軟性が紹介されています。
結論として、このシンプルでありながら強力な手法は、魅力的な多視点光学錯覚を作成するための新しい可能性を開拓しています。人間の知覚に対する仮定を避け、拡散モデルの機能を活用することで、視覚変換の魅力的な世界への新たなアプローチを提供しています。フリップ、回転、ポリモーフィックジグソーパズルなど、この方法は、視覚理解を魅了し挑戦する錯視を作り出すための多目的なツールを提供します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 2024年のインフラストラクチャー予測
- 「シュレディンガー・ブリッジはテキスト・トゥ・スピーチ(TTS)合成において拡散モデルに勝るものになっていますか?」
- 「サポートベクターマシン(SVM)とは何ですか?」
- Google DeepMindはAlphaCode 2を導入しました:競争プログラミングの優れた進歩において、ジェミニモデルの力を利用した人工知能(AI)システム
- 「人工知能と気候変動」
- メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です
- ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します