ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します
Dream Teacher is an AI framework a self-supervised feature learning AI framework that uses a generative network for pre-training downstream image backbones.
自己教育型表現学習は、ビジョンの基礎的なスキルを開発するための成功した手法です。この研究の流れは、大規模な未ラベルデータセットを補完的なトレーニングデータの源として使用することで、下流ネットワークのパフォーマンスを向上させ、大規模なラベル付きターゲットデータセットの要件を軽減するという考えに基づいています。最近の研究では、ImageNetでの自己教育型事前トレーニングが、ピクセル単位の意味論的およびインスタンスセグメンテーションを含むいくつかの下流データセットとタスクにおいて、教師付き事前トレーニングを凌駕または追い越すことが示されています。
画像の変形されたビューを画像データセットからランダムに選択された画像よりも潜在空間で近くマッピングするようにターゲットバックボーンをトレーニングする対照学習のバリエーションは、自己教育型表現学習の中で最も人気のある手法の一つです。このパラダイムは、空間損失を追加し、負のインスタンスを少なくまたはまったく使用しないことでトレーニングの安定性を高めることによって改善することができます。また、一部の領域を入力画像からマスクし、バックボーンをその部分を再構築するようにトレーニングする再構成損失やマスクされた画像モデリング(MIM)に焦点を当てた研究もあります。この研究では、通常、隠れた領域のための単一の理論を監視するという点で決定論的と見なされます。
通常、この研究領域では、より良いバックボーンをトレーニングするためのアーキテクチャの設計、トレーニングのレシピ、およびマスキング戦術に焦点を当てています。これらの技術はVision Transformerベースのバックボーンと組み合わせて使用すると、最先端のパフォーマンスを達成することができます。ただし、最近ではスパースなCNNベースのイメージバックボーンも同様に効果的であることが示されています。本研究では、著者らは、生成モデルを表現学習のための学習者として使用することを提案し、ゴールのシンプルさ(データの生成)と直感的な表現力(高品質のサンプルの生成)を学習された意味的に適切な内部表現のサインとして引用しています。
- 「大規模な言語モデルを使用した生成型AI:実践トレーニング」
- 「RoboPianistに会いましょう:シミュレートされたロボットハンドを使用したピアノマスタリーにおける高次元制御のための新しいベンチマークスイート」
- このAI論文では、COLT5という新しいモデルを提案していますこのモデルは、より高品質かつ高速な処理のために条件付き計算を使用する、長距離入力のためのものです
生成ネットワークを表現学習の学習者として使用するというアイデアは、よく知られています。DatasetGANおよびその派生物でタスク依存型ヘッドと補完的な特徴が提案され、これらの強化されたネットワークをラベル付きデータのソースとして使用して後続のネットワークをトレーニングすることがあります。SemanticGANでは、生成モデルの潜在空間に画像をエンコードし、課題のヘッドを使用して知覚的な出力を作成するために、タスクデコーダーを持つStyleGANをタスクネットワークそのものとして使用しました。NVIDIA、トロント大学、ベクター研究所、MITの研究者らは、DreamTeacherというフレームワークを紹介しています。このフレームワークは、生成モデルを使用して蒸留ベースの下流知覚モデルを事前学習するために使用します。
彼らは2つの異なる蒸留プロセスについて調査しています:1)ラベルのない普遍的な事前トレーニング手順として、生成特徴をターゲットバックボーンに削減する特徴蒸留のための技術を提供します。2)ラベルの蒸留:半教師付きの環境では、ラベル付きデータセットの知識をタスクヘッドを使用してターゲットバックボーンに蒸留します。彼らの研究では、拡散モデルとGANが生成モデルの選択肢です。
彼らは、2つの主な理由から、CNNをターゲットバックボーンとして重点的に調査しています。1)CNNベースのバックボーンは、対照的なおよびMIMの手法においてSoTAの表現学習を実施できることが示されており、2)SoTAの生成モデル(GANや拡散モデルなど)は、依然としてCNNに強く依存しています。彼らはまた、初期の試行でビジョンTransformerのバックボーンも調査しましたが、CNNベースの生成モデルから特徴を抽出することが困難であると判断しました。ビジョンTransformerアーキテクチャを使用して生成モデルを作成する研究はまだ初期段階にあるため、これらの設計を使用したDreamTeacherに関するさらなる研究が必要です。
彼らは実証的に示していますDreamTeacherは、現在利用可能な自己教育型学習システムよりも多くのベンチマークと条件で優れたパフォーマンスを発揮します。ADE20Kでの意味セグメンテーション、MSCOCOでのインスタンスセグメンテーション、および自動運転データセットBDD100Kなどのいくつかの密な予測ベンチマークとタスクでは、ImageNetでのフルスーパーバイズドトレーニングよりもImageNetでのラベルなしの事前トレーニングで優れた結果を示します。ターゲットドメインのみでトレーニングした場合、彼らの手法はラベル付きImageNetで事前トレーニングしたバリエーションを大幅に上回ります。彼らの手法は、数百万枚の未ラベル画像を持つオブジェクトに焦点を当てたデータセットで新たなSoTAの性能を達成します。これらの結果は、生成モデル、特に拡散ベースの生成モデルが、さまざまな未ラベル情報を効果的に利用する表現学習者としての能力を示しています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- メタAIは、CM3leonを紹介します:最先端のテキストから画像生成を提供し、比類のない計算効率を実現するマルチモーダルのゲームチェンジャー
- 「DERAに会ってください:対話可能な解決エージェントによる大規模言語モデル補完を強化するためのAIフレームワーク」
- マルチモーダル言語モデル:人工知能(AI)の未来
- マイクロソフトAIは、高度なマルチモーダルな推論と行動のためにChatGPTとビジョンエキスパートを組み合わせたシステムパラダイム「MM-REACT」を提案しています
- 「自動推論とツールの利用(ART)を紹介します:凍結された大規模言語モデル(LLM)を使用して、推論プログラムの中間段階を迅速に生成するフレームワーク」
- Concrete MLと出会ってください:プライバシーの保護と安全な機械学習を可能にするオープンソースのFHEベースのツールキット
- 新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます