Learn more about Search Results この - Page 8

このAI論文は、「サブセンテンスエンコーダーを紹介します:テキストの細かい意味表現のための対照的に学習されたコンテクスト埋め込みAIモデル」という意味です

ペンシルベニア大学、ワシントン大学、テンセントAI Labの研究者は、サブセントエンコーダーを提案しています。これは対照的に学習された文脈に関連する埋め込みモデルであり、テキストシーケンス内の原子的な命題に対して異なる埋め込みを生成します。従来の文埋め込みとは異なり、意味の異なるさまざまなユニットの文脈埋め込みの学習により、細粒度な意味表現に焦点を当てています。このモデルは、サポートする事実の検索や条件付き意味類似性の認識などのタスクにおいて効果があります。サブセントエンコーダーは、文エンコーダーと同じ推論コストと空間複雑度を維持しつつ、実用性を示しています。 サブセントエンコーダーは、テキストシーケンス内の原子的な命題に対して異なる埋め込みを生成することにより、細粒度な意味表現に焦点を当てています。応用例には、サポートする事実の検索や条件付き意味類似性の認識が含まれます。細部まで効率的にエンコードする能力は、テキストの評価、帰属、真実性の推定に影響を与えることが期待されています。テキストの帰属ニーズに影響を受けたサブセントエンコーダーの設計には、異なる文書間の情報リンキングにおける潜在的な応用があります。 この研究は、テキスト全体を固定長のベクトルにエンコードする一般的な慣行に挑戦し、サブセントエンコーダーを導入しています。異なる情報の粒度に対応するさまざまなタスクに対して柔軟性を提供するサブセントエンコーダーのアーキテクチャは、文書間の情報リンキングにおける潜在的な応用があります。この研究は、サポートする事実の検索や条件付き意味テキスト類似性の認識などのタスクにおけるサブセントエンコーダーの有用性を評価することを目的としています。 このモデルは、テキストシーケンス内の異なる原子的な命題に対して異なる文脈埋め込みを生成します。バイナリトークンマスクを入力として使用し、トランスフォーマベースのアーキテクチャは、サブセントエンコーダーを適用してテキストの帰属に対するサポートする事実を取得し、条件付き意味テキスト類似性を認識します。英語テキストの実験の制約を認識しつつも、この研究は、より広範な言語適用性の可能性を概説し、サブセントエンコーダーのトレーニングデータを作成するための自動プロセスを導入します。 サブセントエンコーダーは、同じ文脈内の命題間の微妙な意味の違いを認識する点で、文エンコーダーよりも優れた精度と再現率を示します。サブセントエンコーダーは、原子的な事実の取得においてドキュメントレベルおよび文レベルモデルと同等のパフォーマンスを発揮し、メモリを向上させます。この研究は、異なる粒度のマルチベクトルリトリーバルにおけるサブセントエンコーダーの可能性を強調し、さまざまなリトリーバルタスクでの柔軟性を示唆しています。 このアーキテクチャは、異なる粒度を持つクロスドキュメント情報リンキングやさまざまなタスクにおいて有望です。原子的な事実の取得の評価においてその有用性が示されており、サブセントエンコーダーは、マルチベクトルリカバリーにおいてリコールを向上させ、テキストの帰属における粒度の課題に対する潜在的な可能性を強調しています。 この研究では、実証された結果が長文のテキスト評価、帰属、真実性推定の更なる研究への道を開けると言及しています。英語テキストの実験の規模の制約を認識しつつも、この研究は、多言語のサブセントエンコーダーの探索や他の言語への拡張の潜在的な展開についての将来の研究を提案しています。探求の必要性を強調し、この研究がサブセントエンコーダーアプリケーションの進展に触発を与え、この領域での更なる研究を促進することを望んでいます。

マストゥゴにお会いしましょう:ディフュージョンに基づいた音楽ドメイン知識に触発されたテキストから音楽へのシステムですタンゴのテキストからオーディオへのモデルを拡張します

テキストから音楽への合成の領域では、生成されるコンテンツの品質は向上してきていますが、音楽的な側面の操作性は未開拓のままです。シンガポール工科大学とクイーンメアリー大学ロンドン校の研究者チームは、この課題に対する解決策であるMustangoというものを紹介しました。このソリューションは、一般的なテキストのキャプションだけでなく、和音、ビート、テンポ、キーに関連する具体的な指示を含むより豊かなキャプションを使用して生成された音楽を制御することを目指しています。 研究者たちは、マルチストアリーム散逸モデルベースの音楽ドメイン知識を活用したテキストから音楽への合成システムであるMustangoを紹介しています。彼らは、散逸モデルから直接音楽を生成する際のユニークな課題を強調し、条件付けテキストと音楽性のバランスをとる必要性を述べています。Mustangoにより、ミュージシャン、プロデューサー、サウンドデザイナーは、和音進行やテンポ、キーの選択などの特定の条件を持つ音楽クリップを作成することができます。 Mustangoの一部として、研究者たちは、音楽ドメイン知識をもとにしたUNetサブモジュールであるMuNetを提案しています。MuNetは、テキストのプロンプトから予測された音楽固有の特徴(和音、ビート、キー、テンポなど)を、散逸ノイズ除去プロセスに統合します。音楽とテキストキャプションが組み合わさったオープンデータセットの提供が限られているという制約に対応するため、研究者たちは新しいデータ拡張手法を導入しています。この手法では、音楽オーディオの調和、リズム、ダイナミックな要素を変化させ、音楽情報抽出の手法を使用して音楽特徴を抽出し、既存のテキスト説明に追加することで、MusicBenchデータセットを生成しています。 MusicBenchデータセットは、ビート、ダウンビートの位置、基礎となる和音進行、キー、テンポを持つ、元のテキスト説明を豊かにする52,000以上のインスタンスを含んでいます。研究者たちは、Mustangoが最先端の音楽の品質を達成していることを示す、幅広い実験を実施しています。また、複数のデータセットにおいて、和音、ビート、キー、テンポなどの望ましい条件を捉える能力においてMustangoのコントロール性能を重視し、プロンプトからコントロール文がないシナリオにおけるこれらの予測子の適応性を評価し、Mustangoがそのような場合においてTangoを上回る優れた性能を示すことを観察しました。つまり、コントロール予測子は性能を損なわないという結果です。 実験には、TangoなどのベースラインやMustangoのバリアントとの比較を含み、提案されたデータ拡張手法がパフォーマンス向上にどれほど効果的であるかを示しています。スクラッチからトレーニングされたMustangoは、音質、リズムの存在、調和性などの面でTangoや他のバリアントを上回る最高のパフォーマンスを発揮しています。Mustangoは1.4Bのパラメータを持ち、Tangoよりもはるかに多いです。 総括すると、研究者たちはテキストから音楽への合成において、Mustangoが重要な進歩であると紹介しています。既存のシステムにおけるコントロール性のギャップに対処し、広範な実験によって提案手法の効果を示しています。Mustangoは最先端の音楽品質を実現するだけでなく、向上したコントロール性を提供し、この分野における貴重な貢献となっています。研究者たちは、テキストから音楽への合成に関する将来の研究のためのリソースとして、MusicBenchデータセットを公開しています。

このAI研究では、BOFT(Foundationモデルの適応のための新しい一般ファインチューニングAIメソッド)を紹介します

人工知能の分野における最近の進展、特に大規模言語モデルの導入は、ほぼすべての領域でAIの道を開いています。ChatGPTやStable Diffusionなどの基本モデルは、顕著な汎化能力を持っています。しかし、これらのモデルをゼロからトレーニングすることは、パラメータの数の増加のために難しい課題です。 モデルの微調整アプローチは、追加の推論遅延を伴わないため簡単です。しかし、従来の微調整技術では、低い学習率を持つために、重み行列の関係情報を最適に維持することが難しいです。研究者は、オーソゴナル微調整(OFT)技術を研究しており、同じ直交行列を使用して同じ層のニューロンを変換することにより、微調整中にニューロン間のペアワイズ角度を維持します。この技術には良い潜在能力がありますが、同じ制限が生じるという問題があります。それは、直交行列の高次元性から生じる訓練可能なパラメータの膨大な数です。 この課題に対処するために、研究チームはオーソゴナルバタフライ(BOFT)というパラメータ効率の向上を可能にするユニークな最新の方法を紹介しました。Cooley-Tukey高速フーリエ変換技術におけるバタフライ構造からインスピレーションを受けて、BOFTは多数の因子化スパース行列と組み立てることで密な直交行列を生成します。直交行列をスパース行列の積として表現するためには、計算時間を空間と交換する必要があります。 研究チームは、これをグリッド構造のグラフ上の情報伝達問題と比較することで理解できると共有しており、表現力を保ちながら訓練可能なパラメータを制限するさまざまなスパース行列因子化技術を使用することが可能になります。BOFTは、Cooley-Tukeyのバタフライグラフに触発されており、その主な革新はバタフライ因子化プロセスです。 この因子化を利用することで、O(log d)のスパース行列の積で密な行列を生成することができます。各スパース行列において直交性を保証することで、BOFTはO(d log d)のパラメータで効率的な直交パラメータ化を実現し、オリジナルのOFTパラメータ化から大幅に削減します。BOFTは一般的な直交微調整フレームワークを提供し、OFTを包括します。 研究チームは、OFTのブロック対角構造とBOFTを比較し、効果的な訓練可能なパラメータを削減するためにBOFTとOFTの両方が直交行列にスパース性を追加することを示しました。しかし、ダウンストリームアプリケーションでは、BOFTのバタフライ構造によって、フル直交行列と単位行列の間でよりスムーズな補間が可能な、より小さな仮説クラスが提供されます。この構造的アプローチは、ローラの低ランク構造と比較することで、低ランクとスパース行列の両方がパラメータ効率を達成する構造化アプローチであることを強調するために行われました。 研究者たちは、主な貢献を以下のようにまとめています。 ダウンストリームタスクのための大規模モデルの適合性を向上させるために、直交微調整のパラメータ効率の問題を研究しました。 情報伝達のための新しいフレームワークが紹介され、パラメータ効率の高い密な直交行列の構築の問題がグリッド構造グラフ内の課題として再構成されました。 パラメータ効率の高い直交微調整手法であるオーソゴナルバタフライ(BOFT)が紹介されました。 BOFTによる訓練可能なパラメータの劇的な削減を保ちながら、表現力とトレーニング安定性を維持するための行列因子化と理論的な説明が議論されました。 BOFTは、適応アプリケーションにおいて最先端の技術を上回り、その優れたパラメータ効率と汎化能力を示しました。

「このAI研究は微生物学者が細菌を識別するのを助けます」

新しいAI研究がマイクロバイオロジーの研究所での菌叢の同定と解析のための包括的なフレームワークであるDeepColonyを提案しています。このシステムは培養プレートの高解像度デジタルスキャンを使用し、細菌の菌叢の解析と同定のための5つの階層構造を採用しています。レベル0では、DeepColonyは菌叢の位置と量を確定し、重要な空間分布情報を提供します。レベル1では、微生物学者が使用する基準に類似した基準を考慮して、孤立した菌叢を同定します。DeepColonyの核心は、レベル2から4にあります。ここでは、システムが初期の種の同定を行い、同定のランキングを洗練し、全体的なプレートの臨床的意義を評価します。 システムのアーキテクチャには、階層構造で組織化された畳み込みニューラルネットワーク(CNN)が含まれます。単一の菌叢同定のためのCNNは、畳み込み層4層と完全接続層1層から構成されています。DeepColonyのユニークなアプローチには、コンテキストに基づく同定が含まれます。同定には、非線形の類似度に基づいた埋め込みが用いられるSiameseニューラルネットワークが使用されます。この埋め込みは、平均シフトクラスタリングと組み合わされ、視覚データに基づいて病原体種の同定を向上させます。 この研究で使用されたデータセットには、培養プレートの高解像度デジタルスキャンから得られた菌叢レベルおよびプレートレベルのデータが含まれています。システムの評価は尿培養に焦点を当てて行われ、データセットには多様な範囲の生物が含まれています。 DeepColonyはマイクロバイオロジー研究所の日常業務の効率と品質を向上させる潜在能力を示しています。それは作業量を減らし、解釈のガイドラインに沿った一貫した意思決定を行い、微生物学者の役割を向上させることができます。システムには、同種の領域での種の同定の難しさなどの制約がありますが、安全設計の特徴により結果の一貫性への影響を最小限に抑えています。 まとめると、DeepColonyは高スループットな研究所における微生物学者の重要な役割を洗練し強化する能力を持つ、ユニークなフレームワークとして浮かび上がります。これにより、微生物学的分析における意思決定プロセスの改善に大きな潜在力をもたらすことができます。 この記事はAI研究がマイクロバイオロジストに菌を同定するのを助けるに最初に投稿されたものであり、MarkTechPostによって提供されました。

このAIニュースレターは、あなたが必要とするすべてです#74

今週は、残念ながらOpenAIの連続する出来事に注目が集まり、いくつかの興味深い新しいモデルの発表が overshadow されてしまいましたおそらく、あなたはその曲折を追いかけていることでしょう...

このAI論文では、マルチビューの冗長性を超えるための新しいマルチモーダル表現学習手法であるFACTORCLを提案しています

機械学習における主要なパラダイムの一つは、複数のモダリティからの表現学習です。未ラベル付けされたマルチモーダルデータに対するブロードな画像の事前トレーニングの後、タスク固有のラベルへの微調整が現在の共通学習戦略となっています。現在のマルチモーダル事前トレーニング技術は、主に多視点学習の先行研究に基づいており、多視点の冗長性という重要な前提によって成り立っています。つまり、モダリティ間で交換される情報は、その後のタスクに完全に関連しているほとんどの情報であるという特性です。これが真であると仮定すると、共有データをキャプチャするために対立的事前トレーニングを使用し、タスクに関連する共有情報を保持するために微調整する手法は、音声と転写テキスト、画像とキャプション、ビデオとオーディオ、指示およびアクションの学習に成功裏に適用されています。 しかしながら、彼らの研究では、対比的学習(CL)のより広範な実世界のマルチモーダルコンテキストでの使用に関する2つの制約を調査しています: 1. タスクに関連する情報の低い共有 多くのマルチモーダルタスクには、漫画の画像と比喩的または慣用的な字幕(つまり、文字通りではなく比喩的なビジュアルの説明)の間など、共有される情報が少ないものがあります。このような状況では、従来のマルチモーダルCLでは必要なタスクに関連する情報を取得するのが困難であり、教示された表現の一部しか学習しません。 2. タスクに関連する独自の情報:多くのモダリティが他のモダリティには存在しない固有の情報を提供する可能性があります。力センサーを使用したロボット工学や医療用センサーを使用した医療などがその例です。 標準のCLではタスクに関連する固有の詳細が無視され、その結果、下流のパフォーマンスが低下します。このような制約の下で、どのようにしてマルチモーダル学習目標を多視点の冗長性を超えて適切に作成することができるのでしょうか?カーネギーメロン大学、ペンシルベニア大学、スタンフォード大学の研究者たちは、情報理論の基礎から始め、FACTORIZED CONTRASTIVE LEARNING(FACTORCL)という手法を提案し、多視点の冗長性を超えたこれらのマルチモーダル表現を学習します。この手法は、条件付き相互文の規定を通じて共有情報と独自情報を形式的に定義します。 まず、共有と独自の表現を明示的に要因分解するというコンセプトです。適切かつ必要な情報コンテンツを持つ表現を作成するための2つ目のアプローチは、タスクに関連する情報を最大化するためにMIの下限を最大化し、タスクに関連しない情報を抽出するためにMIの上限を最小化することです。最終的に、明示的なラベリングなしで自己教示的シナリオにおいてタスクの関連性を確立するために、マルチモーダル拡張を使用します。彼らは、さまざまな合成データセットと画像と比喩的言語を含む幅広い実世界のマルチモーダルベンチマークを使用して、FACTORCLの効果を感情、感性、ユーモア、皮肉、および健康指標およびセンサー読み取りからの患者疾患および死亡予測などの人間の反応の予測に評価しました。彼らは6つのデータセットで新たな最先端のパフォーマンスを達成しました。 以下は彼らの主な技術的貢献を列挙しています: 1. 低共有または高固有情報のシナリオでは、典型的なマルチモーダルCLはタスクに関連する固有情報を収集できないことを示す、最近の対比的学習パフォーマンスの調査。 2. FACTORCLは、次の点において全く新しい対比的学習アルゴリズムです: (A) 低共有あるいは高固有情報を取り扱うために対比的学習を改善するため、FACTORCLは、タスクに関連する情報を共有情報と独自情報に分解します。 (B) FACTORCLは、共有情報と独自情報を独立に最適化することで、タスクに関連する最適な表現を生成します。これにより、タスクに関連する情報を下限でキャプチャし、MIの上限を使用してタスクに関連しない情報を除外します。 (C) FACTORCLを用いてタスクに関連する情報を推定するためのマルチモーダル拡張を使用し、FACTORCLからの自己監督学習を可能にします。

このMITのAI論文では、ロボット操作に革新的な方法を紹介しています:エンコードされた特徴フィールドとビジョン言語モデルによる2Dから3Dのギャップの橋渡し

MITとAIおよび基礎相互作用研究所(IAIFI)の研究チームは、ロボットの操作に革新的なフレームワークを紹介し、予測不可能な複雑な環境で物体を理解し操作する能力の向上に取り組んでいます。課題は、ロボットが3Dジオメトリの詳細な理解を持つ必要があることであり、これは2Dイメージの特徴からは不十分な場合がよくあります。 現在、多くのロボットのタスクでは、空間的な理解と意味的な理解の両方が必要です。たとえば、倉庫のロボットは、製品マニフェストのテキストの記述に基づいて整理されたストレージ容器からアイテムを取り出す必要があります。これには、幾何学的な特性と意味的な属性の両方に基づいて、安定したアイテムの把持能力が必要です。 2Dイメージの特徴と3Dジオメトリのギャップを埋めるため、研究者はFeature Fields for Robotic Manipulation(F3RM)と呼ばれるフレームワークを開発しました。このアプローチは、精緻化された特徴フィールドを活用して、正確な3Dジオメトリと2D基礎モデルの豊かな意味論を組み合わせます。重要な考え方は、事前にトレーニングされたビジョンモデルとビジョン言語モデルを使用して特徴を抽出し、それらを3D特徴フィールドに蒸留することです。 F3RMフレームワークには、特徴フィールドの蒸留、特徴フィールドを使用した6自由度(6-DOF)のポーズ表現、および開放テキスト言語ガイダンスの3つの主要なコンポーネントが含まれます。蒸留された特徴フィールド(DFFs)は、Neural Radiance Fields(NeRF)の概念を拡張し、ビジョンモデルから密な2D特徴を復元するための追加の出力を含めています。これにより、モデルは3D位置を特徴ベクトルにマッピングすることができ、空間的な情報と意味的な情報を統合します。 ポーズ表現には、ギリパーの座標フレーム内の一連のクエリポイントを使用し、これらは3Dガウス分布からサンプリングされます。これらのポイントはワールドフレームに変換され、特徴はローカルジオメトリに基づいて重み付けされます。生成された特徴ベクトルはポーズの表現に結合されます。 フレームワークには、オブジェクト操作のための開放テキスト言語コマンドの組み込み機能も含まれます。ロボットはテストの際に、オブジェクトの操作を指定する自然言語のクエリを受け取ります。それから関連するデモンストレーションを取得し、粗い把持を初期化し、提供された言語ガイダンスに基づいて把持姿勢を最適化します。 結果として、研究者は把持と配置のタスク、および言語ガイドの操作についての実験を行いました。密度、色、およびアイテム間の距離を理解できました。カップ、マグ、ドライバーハンドル、およびキャタピラの耳の実験では成功しました。ロボットは形状、外観、材料、およびポーズが大きく異なるオブジェクトにも一般化することができました。また、デモンストレーション中に見たことのない新しいカテゴリのオブジェクトに対しても、自由テキストの自然言語コマンドに正しく応答しました。 結論として、F3RMフレームワークは、ロボット操作システムのオープンセット汎化の課題に対する有望な解決策を提供します。2D視覚の事前知識と3Dジオメトリを組み合わせ、自然言語のガイダンスを組み込むことにより、ロボットが多様で複雑な環境で複雑なタスクを処理する道を開きます。シーンごとにモデル化にかかる時間など、まだ制限はありますが、このフレームワークはロボティクスと自動化の分野を進歩させるための重要なポテンシャルを秘めています。

このシンプルな履歴書が私にGoogle DeepMindの面接をもたらしました

さて、今日は私がインターンシップを受けるために使用した履歴書について話すことにしましょう…」

朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです

地球上で最も多様な海洋環境は、サンゴ礁に存在すると言われています。サンゴ礁では、約4,000種類の魚が見つかることがあり、全ての海洋生物の約25%が生息しています。サンゴの中では、水中寄生藻類またはゾウキサンテラエと呼ばれるものが、サンゴ礁として知られる鮮やかな炭酸カルシウムの構造物を生成します。水温が上昇し、藻類がサンゴの組織から逃げ出すと、サンゴ礁は退色します。サンゴ礁の退色は、いくつかの環境的および経済的問題と関連しています。極めて高い夏季の海面温度(SST)により、地球温暖化が退色の主な原因です。2016年にオーストラリアのグレート·バリア·リーフでは、退色によりサンゴの29~50%が死滅しました。 また、退色は世界の海洋の二酸化炭素(CO2)レベルを日々高め、環境をより酸性化させ、他のサンゴや海洋生物が骨格を形成することを困難にします。サンゴ礁はさまざまな海洋生物の生息地であり、世界で最も深刻な病気の多くを治療することができる多くの薬物を含んでいます。気候変動の影響を軽減するために、海洋生態学の監視と調査が必要です。しかし、水中画像のアーティファクトと周囲のノイズにより、コンピュータビジョンシステムは前景の対象物と背景を区別するのが困難です。そのため、水中画像を改善するための技術が開発されています。 写真をHSIモデルに変換し、画像の彩度と明度の要素を拡張することで、統合カラーモデル(ICM)と非教示色補正手法(UCM)はコントラストを改善します。人工知能(AI)を研究する研究者は、退色したサンゴ礁を信頼性のあるかつ計算効率の良い方法で特定できるようにしたいと考えています。しかし、照明、サイズ、方向、視点、遮蔽、および背景の乱雑さの違いが、特定モデルの性能を低下させます。カメラの深度、取り付け位置、および監視エリアの変動する光源により、対象物のスケール、視点、および照明が変化します。 このプロジェクトの韓国朝鮮大学の研究者は、海洋環境の写真の幾何学的および視覚的な変動に耐えることができる深層学習と手作りの特徴抽出方法を作成することを目指しています。外観ベースの特徴は物体のテクスチャと色の詳細によるものであり、幾何学的な特徴は主に物体の形状を形成する曲線とエッジの局所的な分布に依存します。照明、サイズ、方向、視点、遮蔽、および背景の乱雑さは外観特徴と幾何学に影響を与えます。ほとんどの分類作業では、手作りの特徴抽出器は深層ニューラルネットワーク(DNN)モデルに置き換えられます。 ドメインの独立性と広範なデータセットのトレーニングにより、ResNet、DenseNet、VGGNet、Inceptionsモデルなど、深層ニューラルネットワーク(DNN)はさまざまなアプリケーションで類例のないパフォーマンスを実現しています。しかし、現在のデータセットには退色した例が少ないため、DNNは過学習し、特徴の堅牢性と一意性が損なわれます。ただし、手作りの特徴の堅牢性と一意性はトレーニングデータの力に依存しません。手作りの特徴の不変性は、ノイズの堅牢性を持っていても、深度、水中光、水の濁りの変化によって影響を受けます。このプロジェクトの目標は、コーラルの写真のジオメトリとフォトメトリの変化に耐える変わらない特徴抽出モデルを作成することです。 提案されたフレームワークは、ハイブリッドな手作りとDNNの手法を使用して生の特徴を抽出し、BoFを用いて次元削減と不変性を増加させ、分類精度を向上させます。提案されたモデルは、ストレージの必要性と複雑さを減らすために、グローバルな特徴ではなく写真からのローカルな特徴を使用してフォトメトリックな不変性を向上させます。試行錯誤の末、最適なパッチ、クラスタサイズ、カーネルの組み合わせ、および分類器が決定されました。

このAI論文は、高度な潜在的一致モデルとLoRA蒸留によってテキストから画像を生成するタスクを革新するLCM-LoRAを紹介しています

潜在拡散モデルは機械学習における生成モデルであり、特に確率モデリングで使用されます。これらのモデルはデータセットの潜在的な構造や潜在変数を捉えることを目指しており、リアルなサンプルの生成や予測に焦点を当てています。これらは時間とともにシステムの進化を記述します。これは、一連のステップや拡散プロセスを通じて初期分布から目的の分布へのランダム変数のセットの変換を指すことができます。 これらのモデルはODE-Solverのメソッドに基づいていますが、推論ステップの数を減らす一方で、特にクラシファイアフリーガイダンスを組み込む場合にはかなりの計算オーバーヘッドを要求します。Guided-Distillなどの蒸留法は有望ですが、その計算要件が高いため改善が必要です。 こうした課題に取り組むために、潜在一貫性モデルの必要性が浮かび上がってきました。彼らのアプローチでは、Augmented Probability Floe ODE問題として逆拡散プロセスを取り扱い、潜在空間での解を予測し、数値ODEソルバーを介した反復的な解決の必要性を回避します。これにより、高解像度画像の顕著な合成にはわずか1〜4の推論ステップがかかります。 清華大学の研究者は、LoRA蒸留をStable-Diffusionモデル(SD-V1.5、SSD-1B、SDXLなど)に適用することで、LCMの潜在的な可能性を拡大しました。彼らは、優れた画像生成品質を実現することで、メモリ消費を大幅に削減しながら大規模なモデルにLCMの適用範囲を広げました。アニメ、フォトリアル、ファンタジー画像などの特殊なデータセットでは、Latent Consistency Distillation(LCD)を使用して事前学習されたLDMをLCMに蒸留するか、LCFを使用してLCMを直接微調整するなど、追加のステップが必要です。しかし、カスタムデータセットにおいて高速でトレーニングフリーな推論を実現することは可能でしょうか。 チームは、これに答えるためにさまざまなStable-Diffusionで微調整されたモデルに直接接続できるトレーニングフリーの高速化モジュールであるLCM-LoRAを紹介します。LoRAのフレームワークの中で、得られたLoRAパラメータは元のモデルパラメータにシームレスに統合することができます。チームは、潜在一貫性モデル(LCMs)の蒸留プロセスにLoRAを使用することの実現可能性を示しました。LCM-LoRAパラメータは他のLoRAパラメータと直接組み合わせることができ、特定のスタイルのデータセットで微調整することができます。これにより、追加のトレーニングなしで特定のスタイルで画像を生成することができます。したがって、これらは多様な画像生成タスクにおいて普遍的に適用可能なアクセラレータを表します。 この革新的なアプローチにより、反復ステップの必要性が大幅に削減され、テキスト入力からの高信頼性画像の迅速な生成が可能となり、最先端のパフォーマンス基準を設定しています。LoRAはパラメータの変更する必要のあるボリュームを大幅に削減し、計算効率を向上させ、データが少なくてもモデルの改良を可能にします。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us