ドリームティーチャーというAIフレームワークに出会ってください:自己教師付きの特徴表現学習AIフレームワークであり、下流の画像バックボーンの事前トレーニングに生成ネットワークを利用します

Dream Teacher is an AI framework a self-supervised feature learning AI framework that uses a generative network for pre-training downstream image backbones.

自己教育型表現学習は、ビジョンの基礎的なスキルを開発するための成功した手法です。この研究の流れは、大規模な未ラベルデータセットを補完的なトレーニングデータの源として使用することで、下流ネットワークのパフォーマンスを向上させ、大規模なラベル付きターゲットデータセットの要件を軽減するという考えに基づいています。最近の研究では、ImageNetでの自己教育型事前トレーニングが、ピクセル単位の意味論的およびインスタンスセグメンテーションを含むいくつかの下流データセットとタスクにおいて、教師付き事前トレーニングを凌駕または追い越すことが示されています。

画像の変形されたビューを画像データセットからランダムに選択された画像よりも潜在空間で近くマッピングするようにターゲットバックボーンをトレーニングする対照学習のバリエーションは、自己教育型表現学習の中で最も人気のある手法の一つです。このパラダイムは、空間損失を追加し、負のインスタンスを少なくまたはまったく使用しないことでトレーニングの安定性を高めることによって改善することができます。また、一部の領域を入力画像からマスクし、バックボーンをその部分を再構築するようにトレーニングする再構成損失やマスクされた画像モデリング(MIM)に焦点を当てた研究もあります。この研究では、通常、隠れた領域のための単一の理論を監視するという点で決定論的と見なされます。

通常、この研究領域では、より良いバックボーンをトレーニングするためのアーキテクチャの設計、トレーニングのレシピ、およびマスキング戦術に焦点を当てています。これらの技術はVision Transformerベースのバックボーンと組み合わせて使用すると、最先端のパフォーマンスを達成することができます。ただし、最近ではスパースなCNNベースのイメージバックボーンも同様に効果的であることが示されています。本研究では、著者らは、生成モデルを表現学習のための学習者として使用することを提案し、ゴールのシンプルさ(データの生成)と直感的な表現力(高品質のサンプルの生成)を学習された意味的に適切な内部表現のサインとして引用しています。

生成ネットワークを表現学習の学習者として使用するというアイデアは、よく知られています。DatasetGANおよびその派生物でタスク依存型ヘッドと補完的な特徴が提案され、これらの強化されたネットワークをラベル付きデータのソースとして使用して後続のネットワークをトレーニングすることがあります。SemanticGANでは、生成モデルの潜在空間に画像をエンコードし、課題のヘッドを使用して知覚的な出力を作成するために、タスクデコーダーを持つStyleGANをタスクネットワークそのものとして使用しました。NVIDIA、トロント大学、ベクター研究所、MITの研究者らは、DreamTeacherというフレームワークを紹介しています。このフレームワークは、生成モデルを使用して蒸留ベースの下流知覚モデルを事前学習するために使用します。

彼らは2つの異なる蒸留プロセスについて調査しています:1)ラベルのない普遍的な事前トレーニング手順として、生成特徴をターゲットバックボーンに削減する特徴蒸留のための技術を提供します。2)ラベルの蒸留:半教師付きの環境では、ラベル付きデータセットの知識をタスクヘッドを使用してターゲットバックボーンに蒸留します。彼らの研究では、拡散モデルとGANが生成モデルの選択肢です。

彼らは、2つの主な理由から、CNNをターゲットバックボーンとして重点的に調査しています。1)CNNベースのバックボーンは、対照的なおよびMIMの手法においてSoTAの表現学習を実施できることが示されており、2)SoTAの生成モデル(GANや拡散モデルなど)は、依然としてCNNに強く依存しています。彼らはまた、初期の試行でビジョンTransformerのバックボーンも調査しましたが、CNNベースの生成モデルから特徴を抽出することが困難であると判断しました。ビジョンTransformerアーキテクチャを使用して生成モデルを作成する研究はまだ初期段階にあるため、これらの設計を使用したDreamTeacherに関するさらなる研究が必要です。

彼らは実証的に示していますDreamTeacherは、現在利用可能な自己教育型学習システムよりも多くのベンチマークと条件で優れたパフォーマンスを発揮します。ADE20Kでの意味セグメンテーション、MSCOCOでのインスタンスセグメンテーション、および自動運転データセットBDD100Kなどのいくつかの密な予測ベンチマークとタスクでは、ImageNetでのフルスーパーバイズドトレーニングよりもImageNetでのラベルなしの事前トレーニングで優れた結果を示します。ターゲットドメインのみでトレーニングした場合、彼らの手法はラベル付きImageNetで事前トレーニングしたバリエーションを大幅に上回ります。彼らの手法は、数百万枚の未ラベル画像を持つオブジェクトに焦点を当てたデータセットで新たなSoTAの性能を達成します。これらの結果は、生成モデル、特に拡散ベースの生成モデルが、さまざまな未ラベル情報を効果的に利用する表現学習者としての能力を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「IIT卒業生のAIによるカバーレターが皆を爆笑させる」

事件の風刺的な展開の中で、あるIIT(インド工科大学)の卒業生が人工知能を活用してカバーレターを作成しようとした結果、大...

機械学習

バード:新しいChatGPTの競争相手

「人工知能におけるユーザーエクスペリエンスを最適化するための絶え間ない探求心を持つGoogleは、最新で最も先進的な対話シ...

人工知能

ミッドジャーニーV5:ミッドジャーニーの最新バージョン

最新のMidjourneyのインカネーションであるV5は、このアート生成人工知能の進化におけるマイルストーンを示しています

人工知能

5つの最高のChatGPT SEOプラグイン

SEOの専門家たちは、ChatGPTプラグインがGoogleのランキングを上げるのを助けるすばらしいツールであることに気づき始めています

AIニュース

「オルトマンの退任につながった手紙?」

人工知能の進化する世界において、OpenAIはイノベーションの光として際立ってきました。しかし、最近、同社はCEOのサム・アル...

データサイエンス

ベクトルデータベース:初心者向けガイド!

ベクトルデータベースに入力すると、データの拡大する景色によって引き起こされる課題の解決策として現れた技術革新です