ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

『D-iGPT』:画像ベースのAI学習の画期的な進歩-ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者による最新発表

“`

自然言語処理(NLP)は、GPTシリーズなどの大規模言語モデル(LLMs)の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。

コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。

本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。

視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2%のトップ-1分類精度を達成しました。

さらに、彼らの大規模モデルは、3600万の公開データセットで89.5%のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「ジェミニに会おう:チャットGPTに対するGoogleの答え」

人工知能の進化する世界において、Googleは最新作のGemini AIにより画期的な飛躍を遂げました。Googleによると、異なるサイズ...

機械学習

「低コスト四足ロボットはパルクールをマスターできるのか? アジャイルなロボット運動のための革命的な学習システムを公開する」

複雑な物理的タスク、例えば困難な環境でのナビゲーションなどをロボットに実行させるという課題は、ロボティクスにおいて長...

機械学習

フリーMITコース:TinyMLと効率的なディープラーニングコンピューティング

日常のデバイスを最適化するAIに興味がありますか?MITのTinyMLとEfficient Deep Learning Computingコースの完全な概要に潜...

機械学習

AI医療診断はどのように動作しますか?

医療分野では、人工知能(AI)が診断や治療計画においてますます頻繁に使用されるようになっています。近年、AIと機械学習は...

AI研究

ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです

ポーズ、見つめること、表情、手のジェスチャーなど、総称して「ボディランゲージ」と呼ばれるものは、多くの学術的研究の対...

AI研究

マイクロソフトの研究者が「InstructDiffusion:コンピュータビジョンタスクを人間の指示に合わせるための包括的かつ汎用的なAIフレームワーク」というタイトルで発表しました

マイクロソフトリサーチアジアの研究者たちは、適応性のある汎用的なビジョンモデルに向けた画期的な進展であるInstructDiffu...