Learn more about Search Results CLIP - Page 3
- You may be interested
- 「創造的AIの法的および倫理的視点」
- 医療画像AIがより簡単になりました:NVIDI...
- 医療における臨床家と言語モデルのギャッ...
- 細かいところに悪魔が潜んでいる:ボック...
- ケンブリッジの研究者たちは、マシンラー...
- GPT-5から何を期待できるのか?
- 「ESAのセンチネルAPIに深く潜入」
- Meta AIとSamsungの研究者が、学習率適応...
- データストリームにおける行列近似
- オンラインで機械学習を学ぶ方法
- NotebookLM グーグルの実験的なAIノートブ...
- 「GPT-4の高度なデータ分析ツールを使った...
- 「CNNによる特徴抽出の探求」
- 革新的なAI会社Ludaが革命的なリアルタイ...
- ホワイトキャッスルへようこそそれに人と...
このAI論文は、「Vary」という新しいアプローチを明らかにしています:高度な多言語認識タスクのための大規模なビジョン言語モデルの視覚語彙を拡張するためのアプローチ
大視覚言語モデル(LVLM)は、コンピュータビジョンと自然言語処理を組み合わせて、視覚的なコンテンツのテキストの説明を生成することができます。これらのモデルは、画像のキャプション付け、可視化された質問応答、および画像の検索など、さまざまなアプリケーションで驚異的な進展を遂げています。しかし、その優れたパフォーマンスにもかかわらず、LVLMはまだいくつかの課題に直面しています。特に、密で詳細な知覚を必要とする特殊なタスクにおいて、ビジョンの語彙が制約されているという問題です。 中国科学技術大学、MEGVIIテクノロジー、および中国科学院の研究者たちは、固有の認識力を必要とする特殊なタスクのためにLVLMを強化するVaryという方法を導入しました。Varyは、効率的に新しい特徴を獲得し、詳細な知覚を改善するためのLVLMを活性化します。実験結果は、Varyの効果を示しています。研究者たちは、さらなる探求のためのプラットフォームとしてVaryを提案しています。研究では、GPT-4をトレーニングデータ生成に使用し、Varyの応用範囲をさまざまな視覚タスクに適用することを強調しています。これにより、LVLMの能力が拡張される一方で、元の能力も維持されます。 この研究は、CLIP-VITなどの一般的なビジョン語彙の制約に取り組んでおり、LVLMにおいてビジョン語彙をスケールアップする必要性を提起しています。これにより、外国語のLVLMのテキスト語彙を拡張することに着想を得たVaryという方法を導入しました。Varyは、語彙ネットワークを使用して新しいビジョン語彙を生成し、元の語彙と統合します。これにより、非英語のOCRやチャート理解などの様々なタスクにおけるエンコーディング効率とモデルパフォーマンスが向上します。この研究は、Varyの設計が今後の研究を刺激すると予想しています。 この研究では、Varyの2つの構成「Vary-tiny」と「Vary-base」を紹介しています。細かい知覚に焦点を当てたVary-tinyは、テキスト入力ブランチを持たず、小さなOPT-125Mモデルを使用します。ドキュメントとチャートのデータを正例、自然画像を負例としてトレーニングされます。Vary-tinyの語彙ネットワークは新しいビジョン語彙を生成し、Vary-baseでは元の語彙と統合されます。Vary-baseのトレーニングでは、両方の語彙ネットワークが使用され、重みが固定されますが、LVLMのパラメータと入力埋め込み層が最適化されます。具体的な実装の詳細には、AdamW最適化、余弦退火スケジューラ、特定の学習率が含まれます。ドキュメントとチャートの理解のための合成データが作成されます。 Varyは、複数のタスクで有望なパフォーマンスを発揮し、ドキュメントレベルのOCR、チャート理解、およびMMVetタスクで優れた結果を達成しています。具体的には、DocVQAでは78.2%、MMVetでは36.2%のANLSを達成し、新しいドキュメントの解析機能における能力を示しています。また、Vary-tinyとVary-baseは、ドキュメントOCRタスクで強力な結果を示しており、Vary-baseは他のLVLMを凌駕しています。この研究はVaryの成功を認めつつ、視覚語彙をスケールアップする効果的な改善の必要性を強調しています。 まとめると、この研究の主なポイントは次のように要約されます: 提案: LVLMにおける視覚語彙のスケールアップのための効率的な方法。 手法: 提案された方法は、オリジナルの言語と統合されたネットワークを介して生成された新しいビジョン語彙を導入します。 能力: この方法は、特にドキュメントレベルのOCRやチャート理解のタスクにおいて、詳細な知覚を向上させます。LVLMの元々の機能は維持しながら、素早く新しい特徴を獲得します。 パフォーマンス: さまざまなタスクで有望なスコアが示されており、この方法はドキュメント解析機能で他のLVLMを凌駕しています。
AI論文は、高度なテクスチャリング、360度モデリング、インタラクティブ編集による3Dコンテンツ作成の進歩であるHyperDreamerを発表します
単一のRGBイメージから詳細でリアルな3Dモデルを生成することは容易ではありません。上海AI研究所、香港中文大学、上海交通大学、S-Lab NTUの研究者は、この課題に対処するためにHyperDreamerを提案しました。このフレームワークは、単一の2Dイメージから直接表示、レンダリング、編集可能な3Dコンテンツの作成を可能にすることで、この問題を解決します。 この研究では、テキストによる3D生成方法の変遷する景色について議論し、Dream Fields、DreamFusion、Magic3D、Fantasia3Dなどの注目すべき作品を引用しています。これらの手法は、CLIP、拡散モデル、空間的に変化するBRDFなどの技術を活用しています。また、テキストからイメージへの拡散モデルを利用した推論ベースと最適化ベースの形式を含む、単一画像再構築手法も強調しています。 この研究は、高度な3Dコンテンツ生成の需要の増大と従来の手法の制約を強調しています。テキストや単一画像条件を組み込んだ最近の2D拡散ベースの手法は、現実感を高めましたが、生成後の利用性やバイアスに課題を抱えています。これらを克服するために、HyperDreamerは単一のRGBイメージから包括的で表示可能、レンダリング可能、編集可能な3Dコンテンツの生成を可能にするフレームワークです。HyperDreamerは、カスタムの超解像モジュール、意味に敏感なアルベド正則化、対話型編集を組み合わせて、現実感、レンダリング品質、生成後の編集機能に関連する問題に対処します。 HyperDreamerフレームワークは、2D拡散、意味のあるセグメンテーション、および材料の推定モデルからのディーププライオールに基づいて、包括的な3Dコンテンツの生成と編集を実現します。高解像度の擬似マルチビューイメージを補助的な監視に使用し、高品質なテクスチャ生成を確保します。材料モデリングには、オンラインの3Dセマンティックセグメンテーションとセマンティックに敏感な正則化が含まれており、材料の推定結果に基づいて初期化されます。HyperDreamerは、対話型セグメンテーションを介した容易なターゲット3Dメッシュの変更のための対話型編集アプローチを導入します。フレームワークにはカスタムの超解像および意味に敏感なアルベドの正則化も組み込まれており、現実感、レンダリング品質、編集機能が向上しています。 HyperDreamerは、単一のRGBイメージからリアルで高品質な3Dコンテンツを生成し、完全な範囲の表示、レンダリング、編集可能性を提供します。比較評価では、最適化ベースの手法よりも現実的で適切な生成物を参照および背面ビューで生成します。超解像モジュールは、代替手法と比較して高解像度でのズームインが可能なテクスチャの詳細を向上させます。対話型編集アプローチにより、3Dメッシュ上のターゲットされた変更が可能であり、素朴なセグメンテーション手法よりも堅牢性と改善された結果を示します。HyperDreamerは、ディーププライオール、セマンティックセグメンテーション、および材料推定モデルの統合により、単一のイメージからハイパーリアリスティックな3Dコンテンツの生成において総合的な成果を上げています。 総括すると、HyperDreamerフレームワークは、ハイパーリアリスティックな3Dコンテンツの生成と編集において完全な範囲の表示、レンダリング、編集可能性を提供する革新的なツールです。領域に敏感な素材のモデリング、高解像度のテクスチャでのユーザーフレンドリーな編集、最先端の手法と比較して優れたパフォーマンスは、包括的な実験と定量的評価によって証明されています。このフレームワークは、3Dコンテンツ作成と編集の進歩において非常に大きなポテンシャルを秘めており、学術および産業の環境において有望なツールとなっています。
地球は平らではなく、あなたのボロノイ図もそうであるべきではありません
「Pythonを使用して、ジオスペーシャルの精度を探索し、正確なジオスペーシャル分析における球面と2Dボロノイ図の違いを理解する」
コンセプトスライダー:LoRAアダプタを使用した拡散モデルの正確な制御
彼らの能力のおかげで、テキストから画像への変換モデルは芸術コミュニティで非常に人気がありますただし、現在のモデル、最先端のフレームワークを含めて、生成された画像の視覚的な概念や属性をコントロールするのは難しく、満足のいく結果を得ることができませんほとんどのモデルはテキストのプロンプトにのみ依存しており、継続的な属性の制御に課題があります[…]
バイトダンスの研究者が「ImageDream」を紹介:3Dオブジェクト生成のための画像刺激とマルチビューディフュージョンモデルの革新的な導入
諺にあるように、「一枚の画像は千語の価値がある」ということわざは、3D制作に画像を第二の手段として追加することで、テキストだけを使用するシステムに比べて大きな利点をもたらします。画像は主に、言語では部分的または不完全にしか説明できない、詳細で豊かな視覚情報を提供します。例えば、画像はテクスチャ、色、空間的な関係などの細かな特徴を明確かつ即座に表現することができますが、単語の説明では同じレベルの詳細を完全に表現するためには助けが必要であり、非常に長い説明が必要になる場合もあります。システムは実際の視覚的な手がかりを直接参照することができるため、書かれた説明を解釈するよりも、複雑さや主観性に幅広いばらつきがあることがありますが、このビジュアルの特異性はより正確で詳細な3Dモデルの生成に役立ちます。 さらに、視覚的な手段を利用することで、特に言葉で自分のビジョンを表現するのが難しい人々にとって、意図した結果をより簡単かつ直接的に説明することができます。この多重モダリティの方法は、テキストの文脈の深さと視覚データの豊かさを組み合わせることで、より信頼性のある、ユーザーフレンドリーで効果的な3D制作プロセスを提供する幅広い創造的および実用的なアプリケーションに役立ちます。しかし、3Dオブジェクトの開発の代替手段として写真を使用する際には、いくつかの困難が存在します。テキストとは異なり、画像には色、テクスチャ、空間的な関係など、多くの追加要素があり、これらは単一のエンコーダ(CLIPなど)を使用して正しく分析および理解するのが難しくなります。 さらに、オブジェクトの光、形状、自己遮蔽の大きな変化は、不完全またはぼやけた3Dモデルを提供する可能性がある視点合成において、より正確で一貫性のあるものにするために、高度な計算負荷の技術が必要です。画像処理の複雑さにより、視覚情報を効果的にデコードし、多くの視点で一貫した外観を保証するために、研究者はZero123などのさまざまな拡散モデル手法を使用して2Dアイテム画像を3Dモデルに変換してきました。画像のみのシステムの1つの欠点は、合成された視点は素晴らしいように見える一方で、再構築されたモデルは時々ジオメトリの正確さや緻密なテクスチャに関して補完が必要です、特にオブジェクトの背面の視点に関してです。この問題の主な原因は、生成または合成された視点間の大きな幾何学的な不一致です。 その結果、再構築時に非一致のピクセルが平均化され、ぼやけたテクスチャと丸みを帯びたジオメトリが生じます。要するに、画像条件付きの3D生成は、テキスト条件付きの生成に比べてより制限の多い最適化問題です。3Dデータの量が限られているため、正確な特徴を持つ3Dモデルを最適化することはより困難になります。最適化プロセスは訓練分布から逸脱しやすい傾向があります。例えば、訓練データセットには様々な馬のスタイルが含まれている場合、テキストの説明だけから馬を作成すると、詳細なモデルが生成される可能性があります。しかし、画像が特定の毛皮の特徴、形状、テクスチャを指定する場合、新しい視点のテクスチャ作成は教授された分布から容易に逸脱することがあります。 これらの問題に対処するために、ByteDanceの研究チームは本研究でImageDreamを提案します。研究チームは、現在のアーキテクチャに容易に組み込むことができる多階層画像プロンプトコントローラを提案します。具体的には、カノニカルカメラ座標に基づいて、生成された画像はオブジェクトの中央の正面ビューを描写しなければなりません(アイデンティティの回転とゼロの移動を使用します)。これにより、入力画像の差異を3次元への変換プロセスがよりシンプルになります。多階層コントローラによって情報伝達プロセスが合理化され、画像入力から各アーキテクチャブロックへの拡散モデルの導入が指示されます。 図1: たった1枚の写真で、画期的なフレームワークImageDreamはあらゆる角度から高品質な3Dモデルを作成します。以前のSoTAであるMagic123などに比べて、3Dジオメトリの品質を大幅に向上させています。さらに重要なのは、MVDreamと比較して、作成された画像プロンプトからのテキストの優れた画像対応を保持していることです。さまざまな技術を使用して作成されたアイテムの8つのビューが以下に示されており、ImageDreamによって生成されたモデルによって描かれた一致する法線マップが最後の行に表示されています。 MVDreamのような厳格にテキストに基づいたモデルと比較して、ImageDreamは図1に示すように、与えられた画像から正確なジオメトリを持つオブジェクトを生成することで優れています。これにより、ユーザーは画像とテキストの整列を改善するために、よく開発された画像生成モデルを使用することができます。ジオメトリとテクスチャの品質に関しては、ImageDreamは現在の最先端技術(SoTA)のゼロショット単一画像3Dモデル生成器であるMagic123を凌駕しています。ImageDreamは、実験部分での定量評価とユーザーテストを通じた定性的比較を含む、これまでのSoTAの技術を凌駕していることが示されています。
このAI論文は、イギリスのインペリアルカレッジロンドンとEleuther AIが対話エージェントの行動を理解するための枠組みとしてロールプレイを探究しています
“`html 現代社会では、人工知能(AI)の統合が人間の相互作用を根本的に変えています。ChatGPTなどの大規模言語モデル(LLMs)の出現により、人間のような認知能力と自動化された対応の間の境界が曖昧になっています。イギリスの帝国カレッジロンドンとEleuther AIの研究チームによる最新の論文では、この進化するAI知能の領域を航海するために、言語アプローチを再評価する必要性に光を当てています。 AIによって駆動されたチャットボットの魅力は、機械的なアルゴリズムではなく感情を持つ存在との会話に似た会話をエミュレートする驚異的な能力です。しかし、人間との相互作用のこのエミュレーションは、個人の感情的なつながり形成への脆弱性とリスクを引き起こす懸念があります。研究者は、これらのLLMsに関する言語と認識を再調整する必要性を強調しています。 問題の本質は、社交性と共感への内在的な人間の傾向にあります。これにより、人間のような属性を持つ存在と関わることへの脆弱性が生じます。しかし、この傾向は、詐欺やプロパガンダなどの不正目的でLLMsを悪用する悪意のある行為者による潜在的な危険性をもたらす可能性があります。チームは、「理解」「思考」「感情」といった人間的な特性をLLMsに帰因することは避けるべきだと警告し、これにより脆弱性が生まれ、保護が必要となると述べています。 論文では、過度な感情的な依存やAIチャットボットへの頼りすぎのリスクを緩和するための戦略を提案しています。まず、ユーザーの理解を簡略化するために、AIチャットボットを特定の役割を果たす俳優として捉えることが重要です。さらに、潜在的な多角的キャラクターの広範な範囲内で様々な役割を演じる指揮者として捉えることにより、より複雑で技術的な視点が得られます。研究者は、包括的な理解を促進するために、これらの異なるメタファー間でのスムーズな移行を推奨しています。 チームは、人々のAIチャットボットとの相互作用にアプローチする方法が、彼らの認識と脆弱性に大きく影響することを強調しました。多様な視点を受け入れることで、これらのシステムに備わる潜在能力をより包括的に把握することができます。 言語の改革の必要性は、意味的な変化を超えて、認知パラダイムの根本的な変化を必要としています。研究者によって示されたように、「異種の心のようなアーティファクト」を理解するには、従来の擬人化からの脱却が必要です。代わりに、AIチャットボットの単純化されたと複雑な概念モデル間を流動的に移動できるダイナミックなマインドセットが必要とされます。 結論として、この論文は、言語の適応と認知的な柔軟性が絶えず進化するAI組み込み相互作用の風景を航海する上での重要性を強調しています。技術が進化するにつれて、AIチャットボットに関するディスカッションの再構築は不可欠です。言語の再調整と多様な視点の受け入れにより、個人はこれらの知的システムの潜在能力を活用しながら内在するリスクを緩和し、人間の認知とAI知能の間に調和のとれた関係を築くことが可能です。 “`
機械学習によるマルチビューオプティカルイリュージョンの作成:ダイナミックな画像変換のためのゼロショット手法の探索
アナグラムは、異なる角度から見るか、ひっくり返すことで外観が変化するイメージです。これらの魅力的な多角的視覚錯覚を生成するためには、通常、視覚知覚を理解してだます必要があります。しかし、新しいアプローチが登場し、これらの魅力的な多視点光学錯視を簡単かつ効果的に生成する方法を提供しています。 視覚錯覚を作成するためのさまざまなアプローチが存在しますが、ほとんどは人間がイメージをどのように理解するかについての特定の仮定に依存しています。これらの仮定はしばしば、われわれの視覚体験の本質をときどき捉えるだけの複雑なモデルにつながります。ミシガン大学の研究者たちは、新しい解決策を提案しています。人間が物事を見る方法に基づいたモデルを構築するのではなく、テキストからイメージへの拡散モデルを使用します。このモデルは人間の知覚について何も仮定しません。データのみから学習します。 この手法は、フリップや回転時に変形するイメージなど、古典的な錯視を生成するための新しい方法を提案しています。さらに、ピクセルを並び替えると外観が変化する「視覚アナグラム」と呼ばれる新しい錯視の領域にも進出しています。これには、フリップ、回転、ジグソーパズルのような複数の解を持つより複雑な変換も含まれます。この手法は、3つや4つの視点にまで拡張され、魅力的な視覚変換の範囲が広がっています。 この手法が機能するための鍵は、ビューを注意深く選択することです。画像に適用される変換は、ノイズの統計的特性を維持する必要があります。なぜなら、このモデルはランダム、独立、同一分布のガウスノイズを仮定してトレーニングされるからです。 この手法では、画像をさまざまな視点からデノイズするために、拡散モデルを利用して複数のノイズの推定値を生成します。これらの推定値は、逆拡散プロセスの1つのステップを容易にするために組み合わされます。 この論文では、これらの視点の効果を支持する経験的根拠が示され、生成される錯視の品質と柔軟性が紹介されています。 結論として、このシンプルでありながら強力な手法は、魅力的な多視点光学錯覚を作成するための新しい可能性を開拓しています。人間の知覚に対する仮定を避け、拡散モデルの機能を活用することで、視覚変換の魅力的な世界への新たなアプローチを提供しています。フリップ、回転、ポリモーフィックジグソーパズルなど、この方法は、視覚理解を魅了し挑戦する錯視を作り出すための多目的なツールを提供します。
「AI意識の展開」
「人工知能が感情を持たないアルゴリズムなのか、感覚や感情を経験する意識的な存在なのか、どのようにわかるのでしょうか?この答えは、倫理的なガイドラインに重大な影響を与えます...」
ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました
“` 自然言語処理(NLP)は、GPTシリーズなどの大規模言語モデル(LLMs)の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。 コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。 本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。 視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2%のトップ-1分類精度を達成しました。 さらに、彼らの大規模モデルは、3600万の公開データセットで89.5%のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。 “`
ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します
人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導入により、生成モデリングはテキスト生成、画像生成、音声合成、映像制作などのさまざまなアプリケーションで驚異的な能力を示しています。 拡散モデルは優れた性能を示しているものの、これらのモデルは通常、モデルサイズの大きさと順次のノイズ除去手順に関連する高い計算コストがあります。これらのモデルは非常に遅い推論速度を持っており、モデルの剪定、蒸留、量子化などの手法を使用してステップごとのモデル推論のオーバーヘッドを低下させるなど、研究者によって様々な取り組みが行われています。 従来の拡散モデルの圧縮方法では、大量の再学習が必要であり、これには実用的および財務的な困難が伴います。この問題を克服するため、研究者チームはディープキャッシュと呼ばれる新しい学習フリーパラダイムを導入し、拡散を加速するために拡散モデルのアーキテクチャを最適化しました。 ディープキャッシュは、拡散モデルの連続したノイズ除去段階に固有の時間的冗長性を利用しています。この冗長性の理由は、いくつかの特徴が連続したノイズ除去ステップで繰り返されるためです。これにより、これらの特性のキャッシングと取り出しの方法を導入することで、重複計算を大幅に削減しています。チームは、このアプローチがU-Netの特性に基づいていることを共有しており、これにより高レベルの特徴を効果的かつ効率的に更新しながら、低レベルの特徴を再利用することができます。 ディープキャッシュの創造的なアプローチにより、Stable Diffusion v1.5に対して2.3倍の高速化が実現されており、CLIPスコアはわずか0.05の低下となっています。また、LDM-4-Gに対しては素晴らしい4.1倍の高速化が実現されており、ただしImageNetではFIDが0.22の低下となっています。 チームはDeepCacheを評価し、実験的な比較で現在の剪定および蒸留手法よりも優れたパフォーマンスを示すことを確認しました。また、既存のサンプリング手法とも互換性があることが示されています。DDIMやPLMSと同様の、またはわずかに優れた性能を示すことが報告されており、同時に生成される出力の品質を損なうことなく、効率を最大限に引き出しています。 研究者は、主な貢献を以下のようにまとめています。 DeepCacheは現在の高速サンプラーとうまく機能し、同様またはより良い生成能力を実現する可能性を示しています。 実行時に拡散モデルを動的に圧縮することで、画像生成の速度を改善しますが、追加のトレーニングは必要ありません。 キャッシュ可能な特徴を使用することで、高レベルの特徴における時間的一貫性を利用して、重複計算を削減します。 拡張キャッシング間隔に対するカスタマイズされた技術を導入することで、DeepCacheは特徴のキャッシュの柔軟性を向上させます。 DDPM、LDM、Stable Diffusionモデルにおいて、CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017、PartiPromptでテストした場合、DeepCacheはより効果的な結果を示します。 再学習が必要な剪定および蒸留アルゴリズムよりも優れたパフォーマンスを発揮するDeepCacheは、高い効果性を維持します。 結論として、DeepCacheは従来の圧縮技術の代替手段として、拡散モデルのアクセラレータとして大いに期待されます。
Find the right Blockchain Investment for you
Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.