Learn more about Search Results ImageNet - Page 2

次元性の祝福?!(パート1)

「これらの問題の1つまたは複数について、慎重に選ばれた科学者のグループが夏に一緒に取り組めば、重要な進展が期待できると私たちは考えています」と提案は述べましたジョンはまだ知りませんでしたが...

AI研究でα-CLIPが公開されました ターゲテッドアテンションと強化された制御によるマルチモーダル画像分析の向上

さらなる焦点化と制御された画像理解および編集のために、どのようにCLIPを改善できるでしょうか?上海交通大学、復旦大学、香港中文大学、上海AI研究所、マカオ大学、およびMThreads Inc.の研究者は、点、ストローク、またはマスクで定義された指定領域を認識する能力を強化するために、コントラスティブ ランゲージ-イメージ プリトレーニング(CLIP)の制限に対処することを目指すAlpha-CLIPを提案します。この改良により、Alpha-CLIPは、画像認識や2Dおよび3D生成タスクへの貢献を含む多様な下流タスクで、より良いパフォーマンスを発揮することができます。 マスクCLIP、SAN、MaskAdaptedCLIP、およびMaskQCLIPなど、さまざまな戦略がCLIPに領域認識を持たせるために試されてきました。一部の方法は、切り抜きやマスクを用いて入力画像を変更します(ReCLIPやOvarNetなど)。他の方法は、赤い円やマスクの輪郭を使用してCLIPの注目を誘導します(Red-CircleやFGVPなど)。これらのアプローチは、CLIPのプリトレーニングデータセットのシンボルに依存することが多く、ドメインのギャップを引き起こす可能性がありますが、Alpha-CLIPは、画像コンテンツを変更せずに指定された領域に焦点を当てるための追加のアルファチャネルを導入し、一般化性能を保持しながら領域の焦点を強化します。 CLIPおよびその派生物は、下流タスクのために画像とテキストから特徴を抽出しますが、特定の領域に焦点を当てることは、より詳細な理解とコンテンツ生成において重要です。Alpha-CLIPは、コンテンツを変更せずに指定された領域に焦点を当てるためのアルファチャネルを導入し、画像認識、マルチモーダル言語モデル、および2D/3D生成などのタスクで、CLIPを強化します。Alpha-CLIPをトレーニングするには、セグメントアニシングモデルと画像キャプショニングのためのマルチモーダルな大規模モデルを使用して、領域-テキストペアのデータを生成する必要があります。 Alpha-CLIP方法は、コンテンツを変更せずに特定の領域に焦点を当てるための追加のアルファチャネルを導入したものであり、これによりコンテキスト情報が保持されます。データパイプラインは、モデルトレーニングのためにRGBA-領域テキストペアを生成します。分類データが領域-テキスト理解に与える影響を調査するために、グラウンディングデータのみで事前トレーニングされたモデルと分類およびグラウンディングデータの組み合わせを比較することによるデータ減衰の研究が行われます。ゼロショット実験では、リファリング表現の理解においてAlpha-CLIPがCLIPに代わり、競争力のある領域-テキスト理解の結果を達成します。 Alpha-CLIPは、点、ストローク、マスクを伴うタスクにおいてCLIPを改善し、焦点を当てることができる特定の領域を拡張します。ただし、グラウンディングのみのプリトレーニングを上回り、領域の知覚能力を向上させます。ImageNetなどの大規模な分類データセットは、そのパフォーマンスに大きく貢献しています。 結論として、Alpha-CLIPモデルは元のCLIPを置き換え、領域焦点の機能を効果的に向上させることが実証されています。さらにアルファチャネルを組み込むことで、Alpha-CLIPはゼロショット認識の改善やリファリング表現理解タスクでベースラインモデルを上回る競争力のある結果を示しています。関連領域に焦点を当てるモデルの能力は、分類とグラウンディングのデータの組み合わせによる事前トレーニングによって向上されています。実験結果は、Alpha-CLIPが前景領域やマスクを持つシナリオで有用であり、CLIPの能力を拡張し、画像テキスト理解を改善する可能性があることを示しています。 将来の課題として、この研究はAlpha-CLIPの制限を解決し、その能力と適用範囲を拡大するために解像度を向上させることを提案しています。研究は、領域-知覚能力を向上させるためにより強力なグラウンディングおよびセグメンテーションモデルを活用することを提案しています。研究者は、画像コンテンツをより良く理解するために、興味のある領域に焦点を当てることの重要性について強調しています。Alpha-CLIPは、画像コンテンツを変更せずに領域の焦点を当てることができます。研究は、Alpha-CLIPのパフォーマンスを改善し、応用範囲を広げ、領域に焦点を当てたCLIPの特徴の新しい戦略を探索するための継続的な研究を提唱しています。

MITとFAIR Metaの研究者は、「組織化された条件つき画像生成 (Representation-Conditioned Image Generation; RCG):クラス非依存の画像生成における画期的なAIフレームワーク」を発表しました

人の注釈に頼らずに高品質な画像を生成する方法はありますか?MIT CSAILとFAIR Metaのこの論文では、人の注釈に頼らずに高品質な画像を生成するという課題に取り組んでいます。彼らは、事前に学習されたエンコーダを介して画像分布から得られた自己教師あり表現分布を利用する新しいフレームワークである「Representation-Conditioned Image Generation (RCG)」を紹介しています。このフレームワークは、クラス非依存の画像生成に優れた結果を達成し、クラス条件付きの画像生成では先導的な手法と競合しています。 歴史的には、教師あり学習がコンピュータビジョンを主導してきましたが、対照的な学習などの自己教師あり学習方法がその差を縮めました。以前の画像生成の研究は、人の注釈を利用した条件付き生成が優れていましたが、非条件付き生成は課題を抱えていました。導入されたRCGフレームワークは、人の注釈を必要とせずにクラス条件付きおよびクラス非条件付きの画像生成で優れた結果を達成し、自己教師あり画像生成の重要な進歩を示しています。 自己教師あり学習のための「Representation Diffusion Model (RDM)」を使用することで、画像生成における教師あり学習と教師なし学習のギャップを埋めることができます。RCGは、ピクセルジェネレータとRDMを統合することにより、クラス非条件付きの画像生成を可能にします。RCGは、Denoising Diffusion Implicit Modelsを通じて訓練された表現空間でのサンプリングのためのRDMを統合し、生成モデルパフォーマンスの向上のためのクラス分類器フリーガイダンスを組み込んでいます。MAGEによって示されるように、Moco v3などの事前学習済み画像エンコーダは、RDMへの入力のために表現を正規化します。 RCGフレームワークは、クラス非条件付きの画像生成において優れた結果を達成し、クラス条件付きの画像生成における先導的な手法と競合しています。ImageNet 256×256データセットでは、RCGはフレチェットイネプション距離3.31およびイネプションスコア253.4を達成し、高品質な画像生成を示しています。表現に基づく条件づけにより、RCGはADM、LDM、MAGEなどのさまざまなピクセルジェネレータによるクラス非条件付きの生成を劇的に向上させ、追加のトレーニングエポックにより性能をさらに向上させます。RCGの自己条件づけ画像生成手法は、さまざまな現代的な生成モデルを使って、クラス非条件付きの生成を一貫して向上させることを証明しています。 RCGフレームワークは、自己教師あり表現分布を活用し、クラス非条件付きの画像生成において画期的な結果を達成しました。さまざまな生成モデルとのシームレスな統合により、クラス非条件付きのパフォーマンスを大幅に向上させ、人の注釈から解放された自己条件づけ手法は条件付き手法を超える可能性を秘めています。RCGの軽量設計とタスク固有のトレーニング適応性により、大規模な未ラベルデータセットを活用することができます。RCGは高品質な画像合成のための非常に効果的で有望な手法となっています。

「MITとAdobeの研究者が、一つのステップの画像生成器に拡散モデルを変換するための人工知能手法、Distribution Matching Distillation (DMD 分布マッチング蒸留) を紹介」

一定のトレーニングプロセスを経て、拡散モデルは画像生成を革新し、従来にない多様性とリアリズムのレベルを達成しました。しかし、GANやVAEとは異なり、そのサンプリングはガウス性ノイズのサンプルのノイズを徐々に減少させ、プログレッシブなデノイジングにより複雑な画像を生成する努力の連続的なプロセスです。これにより、生成パイプラインをクリエイティブなツールとして利用する際の相互作用の量が制限され、通常は多くの高価なニューラルネットワーク評価を必要とします。以前の手法は、初めの多段階の拡散サンプリングで見つかったノイズ→画像のマッピングを単回の学習ネットワークに濃縮し、サンプリングプロセスを高速化します。こうした高次元で複雑なマッピングをフィットすることは、確かに困難な作業です。 改良の余地の一つは、学習モデル全体のデノイジング経路を実行し、単一の損失を計算するための学習モデルのサンプル距離を徐々に拡大していく際に発生する高額な費用です。現在の手法は、元の多段階拡散モデルのデノイジングサイクルを繰り返さずに、学生のサンプル距離を徐々に拡張することでこれを軽減しています。ただし、元の多段階拡散モデルの方が蒸留版よりも優れています。逆に、研究チームは、ノイズと拡散生成された画像の対応を必要とせずに、学生の生成物が元の拡散モデルと同じであることを強調しています。一般的には、彼らの目標の理論的背景は、他の分布マッチング生成モデル(GMMNやGANなど)と似ています。 ただし、リアルなグラフィックを生成する能力は非常に優れているにもかかわらず、一般的なテキストから画像へのモデルのスケーリングは困難であることがわかっています。研究チームは、この問題を解決するために、以前にテキストから画像に広範にトレーニングされた拡散モデルを起点にしています。研究チームは、トレーニングされた拡散モデルを特に微調整することで、データ分布とそれによって生成される架空の分布を学びます。研究チームは、デノイズされた拡散出力を画像を「よりリアル」または(拡散モデルが偽の画像でトレーニングされている場合)「よりフェイク」にするための勾配方向として解釈することができます。なぜなら、拡散モデルは拡散分布のスコア関数を近似することで知られているからです。 最終的に、ジェネレータの勾配更新ルールは、この2つの差として作成され、人工の画像をよりリアリスティックに、よりフェイクから遠ざけます。また、事前学習された拡散モデルによるリアルと偽の分布のモデリングを使用して3Dオブジェクトのテスト時最適化を達成することも可能です。以前の研究では、Variational Score Distillationという手法を使用してこれを実証しています。研究チームは、同様の手法を使用して完全な生成モデルをトレーニングできることも発見しています。さらに、研究チームは、分布マッチング損失の存在下で、多段階拡散サンプリングの結果のわずかな数が事前計算され、1ステップの生成に関するシンプルな回帰損失を実装することで効果的な正則化子として機能することを見つけています。 MITとAdobe Researchの研究者は、Distribution Matching Distillation(DMD)と呼ばれるプロセスを提供しています。これは、画像の品質にほとんど影響を与えずに拡散モデルを1ステップの画像生成器に変換するプロセスです。彼らのアプローチは、VSD、GAN、およびpix2pixからのインスピレーションや洞察を受けています。この研究チームは、(1) 拡散モデルを使用してリアルな分布とフェイクの分布をモデル化し、(2) 多段階拡散出力とシンプルな回帰損失を一致させることで、高精度の1ステップ生成モデルをトレーニングすることができることを示しています。彼らのDistribution Matching Distillation(DMD)技術でトレーニングされたモデルをMS COCO 512×512のゼロショットテキストから画像の生成、CIFAR-10およびImageNet 64×64の画像生成など、さまざまなタスクで評価しています。彼らの1ステップジェネレータは、一括生成モデル、進行的ディスティレーション、修正フローなどの全てのベンチマークで、既知の少数ステップ拡散手法よりも優れたパフォーマンスを発揮します。 DMDはImageNetでのFIDが2.62であり、Consistency Modelを2.4倍上回ります。DMDはStable Diffusionと同じデノイザーアーキテクチャを使用して、MS-COCO 2014-30kで11.49の競争力のあるFIDを達成します。彼らの定量的および定性的な分析は、研究チームのモデルで生成される画像がより高度な品質であり、より高価なStable Diffusionモデルで生成されるものと比較できることを示しています。特に、このレベルの視覚品質を保ちながら、ニューラルネットワークの評価数を100倍減少させることができるという点で、その効率性によって、DMDはFP16推論を使用することで秒間20フレームの速度で512×512の画像を生成できるようになり、多くのインタラクティブなアプリケーションの可能性を開拓しています。

上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです

上海人工知能研究所とMIT CSAIの研究者によって開発された階層的ゲート付き再帰ニューラルネットワーク(HGRN)技術は、線型RNNに忘却ゲートを組み込むことで、シーケンスモデリングの向上の課題に取り組んでいます。目的は、上位層が長期依存関係を捉える一方、下位層が短期依存関係に焦点を当てることを可能にし、特に非常に長いシーケンスの処理を効果的に行うことです。 この研究では、並列トレーニングと長期依存性の能力によるトランスフォーマーの優位性をシーケンスモデリングにおいて探求しており、線型RNNを使用した効率的なシーケンスモデリングに対する再興にも注目しています。特に、忘却ゲートの重要性を強調しています。長いシーケンスに対して自己注意モジュールの代わりに線型再帰と長い畳み込みの代替手法を考慮し、長い畳込みの課題を明示しています。RNNの長期依存性モデリングとゲートメカニズムの制約も取り上げられています。 シーケンスモデリングは、自然言語処理、時系列分析、コンピュータビジョン、音声処理など、さまざまな領域で重要です。トランスフォーマーの登場前には、RNNが一般的に使用されていましたが、トレーニングが遅く長期依存関係のモデリングには課題がありました。トランスフォーマーは並列トレーニングに優れていますが、長いシーケンスに対して二次時間の複雑性を持っています。 この研究では、効率的なシーケンスモデリングのためのHGRNを提案しています。これは、トークンとチャネルのミキシングモジュールからなるスタックされたレイヤーで構成されています。線型再帰レイヤー内の忘却ゲートは、上位層での長期依存性のモデリングと下位層での局所依存性を可能にします。トークンミキシングモジュールは、状態空間モデルに着想を得た出力ゲートと射影を組み込んでいます。ゲートメカニズムと動的減衰率は勾配消失の問題に対処します。言語モデリング、画像分類、長距離ベンチマークの評価により、HGRNの効率と効果を示しています。 提案されたHGRNモデルは、言語モデリング、画像分類、長距離領域ベンチマークで優れた性能を発揮します。バニラトランスフォーマー、MLPベース、RNNベースの手法よりも優れた性能を示し、オリジナルトランスフォーマーと同等の性能を言語タスクで発揮します。Commonsense ReasoningやSuper GLUEなどのタスクでは、より少ないトークンを使用してトランスフォーマーベースのモデルと同等の性能を発揮します。HGRNはLong Range Arenaベンチマークで長期依存関係の扱いにおいて競争力のある結果を達成します。ImageNet-1K画像分類では、HGRNはTNNやバニラトランスフォーマーなどの従来の手法を上回ります。 結論として、HGRNモデルは言語モデリング、画像分類、長距離ベンチマークなど、さまざまな課題やモダリティで高い効果を発揮しています。忘却ゲートとその値の下限の使用により、長期依存関係の効率的なモデリングが可能です。HGRNは、バニラトランスフォーマー、MLPベース、RNNベースの手法のバリエーションに比べて言語タスクで優れた性能を発揮し、ImageNet-1K画像分類ではTNNやバニラトランスフォーマーなどの手法と比較して優れた性能を示しています。 HGRNモデルの将来の展望には、様々な領域や課題での広範な探索が含まれ、その汎用性と効果を評価します。さまざまなハイパーパラメータとアーキテクチャの変化の影響を調査することで、モデルの設計を最適化します。追加のベンチマークデータセットの評価と最先端のモデルとの比較により、性能をさらに検証します。注意力や他のゲートメカニズムの組み込みなど、長期依存性のキャプチャを向上させるための改善点を探求します。さらに長いシーケンスの拡張性とパラレルスキャン実装の利点も調査します。解釈可能性と説明可能性のさらなる分析により、意思決定の洞察を得て透明性を向上させることを目指します。

「CMU研究者がDiffusion-TTAを発表:類まれなテスト時間適応のために生成的フィードバックで識別的AIモデルを高める」

拡散モデルは、複雑なデータ分布から高品質なサンプルを生成するために使用されます。識別的な拡散モデルは、教師あり分類や回帰のようなタスクにおいて、与えられた入力データに対してラベルまたは出力を予測することを目指して拡散モデルの原則を活用します。識別的な拡散モデルは、不確実性の扱い方の向上、ノイズに対する強さ、データ内の複雑な依存関係の捕捉などの利点を提供します。 生成モデルは、新しいデータ点の学習データ分布からの偏差を定量化することで、異常値や外れ値を識別することができます。通常、これらの生成モデルと識別モデルは競合する代替手段と考えられています。カーネギーメロン大学の研究者は、生成逆と識別モデルの繰り返し推論の利点と、識別モデルの適応能力を利用する方法で、推論段階でこれらの2つのモデルを結合させました。 チームは、Diffusion-TTA (Diffusion-based Test Time Adaptation) モデルを構築しました。このモデルは、画像の分類器、セグメンタ、および深度予測モデルの方法を使用して、個々の未ラベルの画像に適応させ、その出力を使用して画像拡散モデルの条件付けを変調させ、画像拡散を最大化します。彼らのモデルはエンコーダーデコーダーアーキテクチャに似ています。事前に訓練された識別モデルは、画像を仮説(オブジェクトのカテゴリラベル、セグメンテーションマップ、深度マップなど)にエンコードします。これを事前に訓練された生成モデルの条件付けとして使用して画像を生成します。 Diffusion-TTA は、ImageNet およびその派生データセットを含む既存のベンチマークで、インサイドおよびアウトサイドのインスタンスに対して画像分類器の適応を効果的に行います。彼らは画像再構成損失を使用してモデルを微調整します。適応は、拡散尤度の勾配を識別モデルの重みに逆伝播させることで、テストセットの各インスタンスに対して行われます。彼らは、彼らのモデルがこれまでの最先端のTTA手法を上回り、複数の識別的および生成的な拡散モデルのバリアントに対して効果的であることを示しています。 研究者はさまざまな設計の選択肢に対する除去分析を示し、拡散-TTA が拡散時間ステップ、各ステップごとのサンプル数、およびバッチサイズのようなハイパーパラメータとどのように変化するかを調査しました。また、異なるモデルパラメータの適応効果を学習しました。 研究者は、Diffusion-TTA が一貫して Diffusion Classifier を上回ることを示しています。彼らは、(事前に訓練された)識別モデルの重み初期化により、識別モデルが生成損失に対して過学習しないため、このトリビアルな解に収束しないと推測しています。 総括すると、過去には生成モデルは画像分類器やセグメントのテスト時の適応に使用されてきました。しかし、ジョイント識別タスク損失と自己教師付き画像再構成損失の下で Diffusion-TTA モデルを共同トレーニングさせることで、効率的な結果を得ることができます。

「Google DeepMind ResearchはSODAを紹介しました:表現学習のために設計された自己教師付き拡散モデル」

Google DeepMindの研究者は、画像を効率的な潜在表現にエンコードする問題に取り組むAIモデル「SODA」を開発しました。SODAにより、画像と意味的属性のシームレスな遷移が可能となり、さまざまな画像カテゴリをまたがった補間や変形ができます。 拡散モデルは、画像、ビデオ、音声、テキストの合成、計画、および薬剤探索など、さまざまなタスクで革新をもたらしました。従来の研究は、生成能力に焦点を当てていましたが、この研究では拡散モデルの表現能力の未開発な領域を探求しています。この研究はさまざまなデータセットやタスクにわたる拡散ベースの表現学習を包括的に評価し、単に画像から得られる潜在的な可能性を明らかにします。 提案されたモデルは、学習における合成の重要性を強調し、拡散モデルの大きな表現能力を示しています。SODAは、情報ボトルネックを組み込んだ自己教師モデルであり、離散した情報を含む有益な表現を実現しています。SODAは、高性能のほんの数ショットの新しいビュー生成や意味的な特性制御を含む、分類、再構築、合成タスクでその強みを示します。 SODAモデルは、自己教師拡散を通じて離散した表現を作成するために情報ボトルネックを利用しています。この手法では、分布に基づく事前学習を使用して表現学習を改善し、分類や新しい視点合成のタスクで強力なパフォーマンスを実現しています。SODAの能力は、ImageNetを含むさまざまなデータセットを徹底的に評価することで検証されています。 SODAは、分類、離散化、再構築、新しい視点合成などの表現学習で優れた成果を上げることが証明されています。変分法と比較して、分離メトリクスの改善が顕著です。ImageNetの線形プローブ分類では、SODAは他の識別モデルを上回り、データ拡張に対する堅牢性を示しています。その多目的性は、新たな視点の生成や意味的属性のシームレスな遷移に明らかです。実証的な研究を通じて、SODAは、詳細な分析、評価メトリクス、他のモデルとの比較による、効果的で堅牢で多目的な表現学習手法として確立されています。 結論として、SODAは、分類、再構築、編集、合成など、さまざまなタスクに対して堅牢な意味的表現を生み出す表現学習で優れた能力を示しています。情報ボトルネックを利用して、重要な画像の特性に焦点を当て、変分法を分離メトリクスで上回っています。SODAの多目的性は、新しい視点の生成、意味的属性の遷移、カメラの視点など、より豊かな条件情報の処理能力に明らかです。 将来の展望としては、SODAの領域をより深く掘り下げるために、3Dデータセットの動的構成シーンや新しい視点合成と自己教師学習とのギャップを埋めることが価値あるでしょう。モデルの構造、実装、評価の詳細など、拡散モデルの予備知識、ハイパーパラメータ、トレーニング技術、サンプリング方法についてさらなる検討が必要です。消去と変異の研究を行うことで、より良い設計選択や代替メカニズム、クロスアテンション、レイヤーごとの変調を探求することが推奨されます。これにより、3D新しい視点合成、画像編集、再構築、表現学習などのさまざまなタスクでのパフォーマンスが向上する可能性があります。

「PyTorchでのSoft Nearest Neighbor Lossの実装方法」

表現学習は、深層ニューラルネットワークによって与えられたデータセット内の最も顕著な特徴を学習するタスクです通常は教師あり学習の範囲で暗黙的に行われる課題であり、それは...

このAI論文は『プライバシー保護MAE-Alignと呼ばれる新しい事前トレーニング戦略を提案し、合成データと人間除去された実データを効果的に組み合わせる』というものです

アクション認識は、ビデオシーケンスから人間の動作を識別・分類するタスクであり、コンピュータビジョンの中で非常に重要な分野です。しかし、このタスクは人々の画像を含む大規模なデータセットに依存しており、プライバシー、倫理、データ保護に関連する重要な課題を引き起こします。これらの問題は、個人属性に基づく個人の特定や、明示的な同意なしでのデータ収集によるものです。さらに、特定のグループが実行する特定の行動に関連するジェンダーや人種などのバイアスは、このようなデータセットで訓練されたモデルの正確性や公平性に影響を与える可能性があります。 アクション認識では、大規模なビデオデータセット上での事前学習の進歩が画期的な役割を果たしています。しかし、この進歩には、倫理的な考慮事項、プライバシーの問題、人間イメージのデータセットに固有のバイアスなどの課題が付随しています。これらの課題に対処するための既存のアプローチには、顔のぼかし、ビデオのダウンサンプリング、または合成データの使用が含まれます。しかし、これらの取り組みにもかかわらず、プライバシーを保護する事前学習モデルが学んだ表現が、さまざまなアクション認識タスクへの転移性がどれほど良いかについて、さらなる分析が必要です。最先端のモデルは、バイアスや訓練データの多様性の欠如により、アクションの予測が正確でない場合があります。これらの課題に対処するためには、プライバシーに関する懸念を解決し、学習された表現の転移性を向上させる革新的なアプローチが求められます。 プライバシーの懸念や人間中心のデータセットに対するバイアスによる課題を克服するために、最近行われたNeurIPS 2023という有名なカンファレンスで、画期的なアプローチが発表されました。この新たに発表された研究では、仮想人間を含む合成ビデオと人間のいない実世界のビデオを組み合わせてアクション認識モデルを事前学習する方法論が提案されています。この革新的な方法をプライバシー保護MAE-Align(PPMA)と呼びます。この方法は、合成データから時間的なダイナミクスを学習し、人間のいないビデオから文脈特徴を学習することで、個人データに関連するプライバシーや倫理上の懸念に対処します。PPMAは、学習された表現をさまざまなアクション認識タスクに転送する能力を大幅に向上させ、人間中心のデータを使用したモデルとの性能差を縮小します。 具体的には、提案されるPPMA手法は以下の主要なステップに従います: プライバシー保護実データ:このプロセスは、Kineticsデータセットを使用し、HATフレームワークを使って人間を除去し、No-Human Kineticsデータセットを作成することから始まります。 合成データ追加:SynAPTから合成ビデオを追加し、時間的特徴にフォーカスした仮想人間の動作を提供します。 ダウンストリームの評価:6つの異なるタスクでモデルの転移性を評価します。 MAE-Align事前学習:この2段階の戦略は以下のようなものです: ステージ1:MAEトレーニング – ピクセル値の予測を行い、実世界の文脈特徴を学習します。 ステージ2:教師ありアライメント – No-Human Kineticsと合成データを使用してアクションラベルに基づくトレーニングを行います。 プライバシー保護MAE-Align(PPMA):ステージ1(No-Human Kineticsで訓練されたMAE)とステージ2(No-Human Kineticsと合成データの両方を使用したアライメント)を組み合わせることで、PPMAはプライバシーを保護しながら頑健な表現学習を実現します。 研究チームは、提案手法を評価するために実験を行いました。ImageNetの事前学習を行わずにゼロからトレーニングされたViT-Bモデルを使用し、MAEトレーニング(200エポック)の後に教師ありアライメント(50エポック)を行いました。6つの異なるタスクにおいて、PPMAは他のプライバシー保護手法に比べて、微調整(FT)では2.5%、線形プロービング(LP)では5%の性能向上を達成しました。高いシーン-オブジェクトバイアスのタスクでは多少効果が低かったものの、PPMAは人間中心の実データで訓練されたモデルとの性能差を大幅に縮小し、プライバシーを保護しながら頑健な表現を実現する可能性を示しました。削除実験はMAE事前学習が転移学習においてどれだけ効果的かを示し、さらなる研究の余地を開く文脈と時間的な特徴の組み合わせ、モデルの重みの平均化や動的な学習率の調整などの手法も表現を向上させる可能性を示しました。 本記事では、アクション認識モデルに対する新しいプライバシー保護手法PPMAを紹介し、人間中心のデータセットに関連するプライバシー、倫理、バイアスの課題に取り組んでいます。合成データと人間不在の実世界データを活用することで、PPMAは学習された表現を異なるアクション認識タスクに効果的に転送し、人間中心のデータを使用したモデルとの性能差を縮小します。実験結果は、PPMAがプライバシーを保護しながらアクション認識を進化させ、従来のデータセットに関連する倫理的な懸念やバイアスを軽減する能力を示しています。

「GoogleとMITの研究者がStableRepを紹介:合成イメージによるAIトレーニングで機械学習を革新する」

研究者たちは、テキストから画像への変換モデルによって生成される合成画像の潜在能力を探ることで、視覚的な表現を学び、より効率的でバイアスの少ない機械学習の道を開拓しています。MITの研究者によるこの新しい研究では、Stable Diffusionに焦点を当て、合成画像上で自己教師ありの手法を訓練することで、生成モデルが適切に設定されている場合には、実際の画像と同等またはそれ以上の性能を発揮することを示しています。提案された手法であるStableRepは、同じテキストのプロンプトから生成される複数の画像を互いに正として扱うマルチポジティブな対比学習手法を導入しています。StableRepは完全に合成画像のみで訓練され、大規模データセットではSimCLRやCLIPなどの最先端の手法を上回り、言語の指導と組み合わせた場合には5000万枚の実際の画像で訓練されたCLIPよりも優れた精度を達成します。 提案されたStableRepアプローチは、キャプション内の不変性を促進する表現学習の新しい方法を導入しています。同じテキストのプロンプトから生成される複数の画像を互いに正として扱うことで、StableRepはマルチポジティブな対比損失を使用します。その結果、StableRepはSimCLRやCLIPなどの他の自己教師あり手法を上回るImageNet上で顕著な線形精度を達成します。この手法の成功は、Stable Diffusionとテキストプロンプトといった要素を活用し、合成データのサンプリングに対してより大きな制御を行う能力に起因しています。また、生成モデルは訓練データを超えて一般化する可能性を持ち、実際のデータのみに比べてより豊かな合成訓練セットを提供します。 まとめると、この研究はStable Diffusionによって生成された合成画像上で自己教師あり手法を訓練することの驚くべき効果を示しています。StableRepアプローチは、マルチポジティブな対比学習手法を備えることにより、実際の画像を使用した最先端の手法に比べて表現学習における優れた性能を示しています。この研究は、大規模かつ多様なデータセットの取得に対する費用効果の高い代替手法として、テキストから画像を生成する手法によるデータ収集の簡素化の可能性を提示しています。ただし、合成データにおける意味の不一致やバイアスの課題には取り組む必要があり、未整理のウェブデータを訓練に使用することの潜在的な影響も考慮する必要があります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us