ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

『D-iGPT』:画像ベースのAI学習の画期的な進歩-ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者による最新発表

“`

自然言語処理(NLP)は、GPTシリーズなどの大規模言語モデル(LLMs)の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。

コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。

本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。

視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2%のトップ-1分類精度を達成しました。

さらに、彼らの大規模モデルは、3600万の公開データセットで89.5%のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文では、新しい個別化留留過程を紹介していますクローズドソース相手からの適応的な学習により、オープンソースLLMsの強化を行います

シンガポールの南洋理工大学とセールスフォース・リサーチの研究者らは、学生モデルの初期の課題解決の試みと教師モデルによ...

機械学習

AIキャリアのトレンド:人工知能の世界で注目されているものは何ですか?

急速に成長しているAI分野でのキャリアをお探しですか?エキサイティングな機会を提供するAIキャリアのトップ6つを発見してく...

機械学習

メトリックは欺くことができますが、目はできません:このAIメソッドは、ビデオフレーム補間のための知覚的な品質メトリックを提案します

ディスプレイ技術の進歩により、私たちの視聴体験はより強烈で楽しいものになりました。4K 60FPSで何かを観ることは、1080P 3...

機械学習

「LLaMaTabに会おう:ブラウザ内で完全に動作するオープンソースのChrome拡張機能」

LLaMaTab–興味深いChrome拡張機能 LLaMaTab New TabというChromeアドオンは、新しいタブが開かれるたびに異なるラマの画像を...

データサイエンス

ツリー構造パーゼン推定器(Hyperopt)を使ったハイパーパラメータのチューニングの向上

この記事では、機械学習におけるハイパーパラメータ調整のためのTree-Structured Parzen Estimator(TPE)の概念と、具体的な...

機械学習

「Code Llama内部:Meta AIがCode LLMスペースへの参入」

コーディングは、大規模言語モデル(LLM)の最も活発な活動の1つに急速になっていますOpenAIが昨年Codex(現在はGPT-4の一部...