Learn more about Search Results ImageNet

データセットの凝縮の潜在能力を解き放つ:SRe^2LがImageNet-1Kで記録的な精度を達成

近年、データの圧縮と蒸留手法に注目が集まり、人工知能の研究に革新をもたらしています。これらの手法は、大規模なデータセットを効率的に表現し、より速いモデルのトレーニング、費用対効果の高いデータの保存、重要な情報の保持を可能にすることを約束しています。しかし、既存の解決策は、ImageNet-1Kのような高解像度のデータセットを圧縮することに困難を抱えてきました。これは、計算上のオーバーヘッドが非常に大きいためです。 モハメド・ビン・ザイードAI大学とカーネギーメロン大学の研究チームが、画期的なデータセット圧縮フレームワーク「Squeeze, Recover, and Relabel」(SRe^2L)を発表しました。彼らの画期的な手法は、高解像度のデータセットを圧縮し、重要な情報を保持しながら驚異的な精度を達成するものです。 データセットの蒸留における主な課題は、効果的に圧縮されたサンプルを生成することができる生成アルゴリズムを作成し、生成されたサンプルが元のデータセットからの核心情報を保持することです。既存の手法は、計算上やメモリ上の制約のために大規模なデータセットに拡張することが困難であり、必要な情報を保存する能力に制約を加えています。 これらの課題に対処するために、SRe^2Lフレームワークは、圧縮、復元、ラベル付けの3つのステージの学習プロセスを採用しています。研究者はまず、元のデータセットから重要な情報を抽出するためのモデルをトレーニングします。次に、目標データを合成するための復元プロセスを行い、その後、合成データに真のラベルを割り当てるためにラベル付けを行います。 SRe^2Lの主なイノベーションは、モデルと合成データのバイレベル最適化をトレーニング中に分離することにあります。このユニークなアプローチにより、元のデータからの情報抽出がデータ生成プロセスから独立して行われることが保証されます。元のデータから生成されたデータに影響を与える追加のメモリの必要性を回避し、バイアスを防ぐことで、SRe^2Lは以前の手法が直面する重要な制約を克服します。 彼らの手法を検証するために、研究チームはTiny-ImageNetとImageNet-1Kの2つのデータセットで広範なデータ圧縮実験を行いました。その結果、SRe^2Lは、完全なTiny-ImageNetおよびImageNet-1Kでそれぞれ42.5%および60.8%の驚異的な精度を達成しました。これらの結果は、合理的なトレーニング時間とメモリコストを維持しながら、これまでの最先端の手法を大幅に上回っています。 この研究の特徴の一つは、研究者たちがアクセシビリティに対する取り組みです。3090、4090、またはA100シリーズなど、広く利用可能なNVIDIAのGPUを活用することで、SRe^2Lはより多くの研究者や実践者にアクセス可能となり、協力とフィールドの進歩を加速させることができます。 大規模な高解像度データセットの需要がますます高まる時代において、SRe^2Lフレームワークはデータ圧縮と蒸留の課題に対する変革的な解決策として浮かび上がります。ImageNet-1Kを効率的に圧縮しながら重要な情報を保持する能力により、さまざまなAIアプリケーションにおける迅速で効率的なモデルトレーニングの新たな可能性が開かれます。その実績とアクセス可能な実装により、SRe^2Lはデータセットの蒸留のフロンティアを再定義し、AIの研究と開発に新たな道を開くことを約束します。

「BERTをゼロから訓練する究極のガイド:最終幕」

自分自身のBERTモデルの構築とトレーニング

2024年にフォローするべきデータサイエンスのトップ12リーダー

データサイエンスの広がりを見据えると、2024年の到来は、革新を牽引し、分析の未来を形作る一握りの著名人にスポットライトを当てる重要な瞬間として迎えられます。『Top 12 Data Science Leaders List』は、これらの個人の卓越した専門知識、先見のリーダーシップ、および分野への重要な貢献を称えるビーコンとして機能します。私たちは、これらの画期的なマインドの物語、プロジェクト、そして先見の見通しをナビゲートしながら、データサイエンスの進路を形作ると約束された航跡を探求します。これらの模範的なリーダーたちは単なるパイオニアにとどまることはありません。彼らは無類のイノベーションと発見の時代へと私たちを導く先駆者そのものです。 2024年に注目すべきトップ12データサイエンスリーダーリスト 2024年への接近とともに、データサイエンスにおいて傑出した専門知識、リーダーシップ、注目すべき貢献を示す特異なグループの人々に焦点を当てています。『Top 12 Data Science Leaders List』は、これらの個人を認識し、注目することで、彼らを思想リーダー、イノベーター、およびインフルエンサーとして認め、来年重要なマイルストーンを達成することが予想されます。 さらに詳細に突入すると、これらの個人の視点、事業、イニシアチブが、さまざまなセクターを横断する複雑な課題に対するメソッドとデータの活用方法を変革することが明らかになります。予測分析の進展、倫理的なAIの実践の促進、または先進的なアルゴリズムの開発など、このリストでハイライトされた個人たちが2024年にデータサイエンスの領域に影響を与えることが期待されています。 1. Anndrew Ng 「AIのゲームにおいて、適切なビジネスコンテキストを見つけることが非常に重要です。私はテクノロジーが大好きです。それは多くの機会を提供します。しかし結局のところ、テクノロジーはコンテクスト化され、ビジネスユースケースに収まる必要があります。」 Dr. アンドリュー・エングは、機械学習(ML)と人工知能(AI)の専門知識を持つ英米のコンピュータ科学者です。AIの開発への貢献について語っている彼は、DeepLearning.AIの創設者であり、Landing AIの創設者兼CEO、AI Fundのゼネラルパートナー、およびスタンフォード大学コンピュータサイエンス学科の客員教授でもあります。さらに、彼はGoogle AIの傘下にある深層学習人工知能研究チームの創設リードでありました。また、彼はBaiduのチーフサイエンティストとして、1300人のAIグループの指導や会社のAIグローバル戦略の開発にも携わりました。 アンドリュー・エング氏は、スタンフォード大学でMOOC(大規模オープンオンラインコース)の開発をリードしました。また、Courseraを創設し、10万人以上の学生に機械学習のコースを提供しました。MLとオンライン教育の先駆者である彼は、カーネギーメロン大学、MIT、カリフォルニア大学バークレー校の学位を保持しています。さらに、彼はML、ロボット工学、関連する分野で200以上の研究論文の共著者であり、Tiime誌の世界で最も影響力のある100人のリストに選ばれています。…

「転移学習を探求しましょう…」(Ten’i gakushū o tankyū shimashou…)

転移学習については、多くの定義があります基本的には、事前学習済みモデルの知識を活用して新しい問題を解決することを指します転移学習には数多くの利点があります...

中国のこのAI論文では、UniRepLKNetと呼ばれる画像、音声、時間系列データ解析においてクロスモーダル性能を向上させるための革新的な大規模カーネルConvNetアーキテクチャが紹介されています

CNN(畳み込みニューラルネットワーク)は、近年では画像認識のための人気のある技術となっています。物体検出、分類、セグメンテーションのタスクにおいて非常に成功しています。しかし、これらのネットワークがより複雑になるにつれて、新たな課題が浮上しています。テンセントAI Labと香港中文大学の研究者は、大規模カーネルCNNにおけるアーキテクチャの課題に対応するための4つのガイドラインを提案しました。これらのガイドラインは、大規模カーネルをビジョンのタスク以外の領域、例えば時系列予測や音声認識などに拡張して、画像認識の向上を目指しています。 UniRepLKNetは、非常に大きなカーネルを持つConvNetの有効性を探求し、空間畳み込みだけでなく、ポイントクラウドデータ、時系列予測、音声、ビデオの認識などのドメインにまで拡張します。以前の研究では、異なる大きなカーネルの種を紹介していましたが、UniRepLKNetはそのようなカーネルを持つConvNetのためのアーキテクチャ設計に焦点を当てています。UniRepLKNetは3Dパターン学習、時系列予測、音声認識の分野で専門モデルを上回るパフォーマンスを発揮します。テクニカルモデルよりもわずかに低いビデオ認識の精度を持ちながらも、UniRepLKNetはゼロから訓練された総合的なモデルであり、さまざまなドメインでの柔軟性を提供します。 UniRepLKNetは大規模カーネルを持つConvNet向けのアーキテクチャガイドラインを導入し、過剰な深さを避け、広範なカバレッジを重視しています。ガイドラインはVision Transformers(ViTs)の制限に対処し、効率的な構造に焦点を当て、畳み込み層の再パラメータ化、タスクベースのカーネルサイジング、3×3畳み込み層の組み込みを扱っています。UniRepLKNetは既存の大規模カーネルConvNetと最近のアーキテクチャを上回る、画像認識における性能と効率を示しています。時系列予測や音声認識でも普遍的な知覚能力を示し、ポイントクラウドデータの3Dパターン学習においても、専門のConvNetモデルを超える性能を持ちます。 UniRepLKNetのアーキテクチャは、ImageNetの精度が88.0%、ADE20KのmIoUが55.6%、COCOボックスAPが56.4%といった画像認識タスクにおけるトップクラスのパフォーマンスを達成しています。UniRepLKNetの普遍的な知覚能力は、グローバル気温と風速予測の課題においてMSEとMAEで競合他社を上回ることで示されています。UniRepLKNetはポイントクラウドデータの3Dパターン学習においても専門のConvNetモデルを超える性能を発揮します。このモデルは、セグメンテーションなどの下流タスクでも有望な結果を示し、多様なドメインでの優れたパフォーマンスと効率性を確認しています。 まとめると、研究のまとめは以下の通りです: 研究では、大規模カーネルConvNet向けの4つのアーキテクチャガイドラインを導入しています。 これらのガイドラインは大規模カーネルConvNetの特徴を重視しています。 これらのガイドラインに従って設計されたConvNetモデルであるUniRepLKNetは、画像認識タスクにおいて競合他社を上回る優れたパフォーマンスを発揮します。 UniRepLKNetはカスタマイズなしで時系列予測や音声認識などの領域で普遍的な知覚能力を示します。 UniRepLKNetはポイントクラウドデータの3Dパターン学習においても専門モデルを上回ります。 また、研究は非膨張性の大規模カーネル畳み込み層の性能を向上させるためにDilated Reparam Blockを導入しています。 この研究は貴重なアーキテクチャガイドラインを提供し、UniRepLKNetとその能力を紹介し、Dilated Reparam Blockの概念を示しています。

モデルインサイトの視覚化:ディープラーニングにおけるGrad-CAMのガイド

イントロダクション グラジエント重み付きクラスアクティベーションマッピングは、CNNでの意思決定を可視化し理解するためのディープラーニングのテクニックです。この画期的なテクニックはCNNが行った隠れた意思決定を明らかにし、不透明なモデルを透明なストーリーテラーに変えます。これは、ニューラルネットワークの注意を引く画像の本質をスポットライトで浮き彫りにする魔法レンズと考えてください。では、どのように機能するのでしょうか? Grad-CAMは、最後の畳み込み層の勾配を分析することで、特定のクラスの各特徴マップの重要性を解読します。 Grad-CAMはCNNを解釈し、予測を明らかにし、デバッグを支援し、パフォーマンスを向上させます。クラスの識別とローカル化はできますが、ピクセル空間の詳細の強調はありません。 学習目標 CNNベースのモデルでの解釈性の重要性を理解し、透明性と説明可能性を高めます。 Grad-CAM(Grad-CAM(グラジエント重み付きクラスアクティベーションマッピング))の基礎を学び、CNNの意思決定を視覚化し解釈するための技術を理解します。 Grad-CAMの実装手順に洞察を得て、イメージ中の重要な領域をモデルの予測のためにハイライトするためのクラス活性化マップを生成することを可能にします。 Grad-CAMがCNNの予測において理解と信頼を高める実世界の応用とユースケースを探索します。 この記事はData Science Blogathonの一部として公開されました。 Grad-CAMとは何ですか? Grad-CAMは、グラジエント重み付きクラスアクティベーションマッピングの略です。これは、ディープラーニング、特に畳み込みニューラルネットワーク(CNN)で使用される技術で、特定のクラスのネットワークの予測にとって重要な入力画像の領域を理解するために使用されます。 Grad-CAMは、複雑な高パフォーマンスのCNNモデルを理解することを可能にする技術であり、精度を損なうことなく可解釈性を提供します。 Grad-CAMは、アーキテクチャの変更や再トレーニングがなく、CNNベースのネットワークのための視覚的な説明を生成するクラス識別ローカリゼーション技術として特徴付けられています。この手法は、Grad-CAMを他の視覚化手法と比較し、クラスの識別力と高解像度の視覚的説明を生成することの重要性を強調します。 Grad-CAMは、CNNの最後の畳み込み層に流れるグラジエントを分析することで、画像の重要な領域をハイライトするヒートマップを生成します。 Grad-CAMは、最後の畳み込み層の特徴マップに関連する予測クラススコアの勾配を計算することで、特定のクラスの各特徴マップの重要性を判断します。 ディープラーニングにGrad-CAMが必要な理由 Grad-CAMは、ディープラーニングモデルの解釈性の重要性に対応するために必要です。これにより、さまざまなコンピュータビジョンタスクで提供する精度を損なうことなく、これらのモデルが予測に至る方法を視覚化し理解する手段が提供されます。 +---------------------------------------+ | | |…

「このAIニュースレターは、あなたが必要とするすべてです #77」

今週のAIのニュースは、Google(ジェミニ)とミストラル(8x7B)による新しい大規模言語モデルのリリースが主でしたモデルの発表におけるアプローチは、プレスイベントとデモによるもので、非常に異なっていました...

ジョンズ・ホプキンス大学とUCサンタクルーズ校の研究者が、画像ベースのAI学習の画期的な進歩であるD-iGPTを発表しました

“` 自然言語処理(NLP)は、GPTシリーズなどの大規模言語モデル(LLMs)の導入により、さまざまな言語的なタスクに対して新たなパフォーマンス基準を確立する変革期に入りました。自己回帰前処理は、モデルにシーケンス内で最も可能性の高いトークンを予測することを教えることで、この驚異的な達成に影響を与える主要な要素の1つです。この基本的な技術により、モデルは構文と意味の複雑な相互作用を吸収し、人間のように言語を理解する卓越した能力を持つことができます。自己回帰前処理は、NLPに加えてコンピュータビジョンにも大きく貢献しています。 コンピュータビジョンにおいて、自己回帰前処理は最初は成功しましたが、後続の開発によりBERTスタイルの前処理に有利な鮮明なパラダイム変化が示されました。この移行は特に注目に値しますが、最初のiGPTの結果からは、自己回帰およびBERTスタイルの前処理がさまざまなタスクで同様のパフォーマンスを発揮することが示されました。ただし、視覚表現学習における効果の高さから、その後の研究ではBERTスタイルの前処理が優先されるようになりました。例えば、MAEはランダムにマスクされたピクセルの値を予測するだけの視覚表現学習に対してスケーラブルなアプローチを示しています。 本研究では、ジョンズ・ホプキンス大学とUCサンタクルーズの研究チームがiGPTを再検討し、自己回帰前処理が広範に適用された場合に高度な視覚学習者を生み出すことができるかどうかを問いました。その過程には2つの重要な変更が組み込まれています。まず、研究チームは画像が自然にノイズや冗長性を持つため、BEiTを使用して写真を意味的なトークンにトークン化します。この変更により、自己回帰予測の焦点がピクセルから意味的なトークンにシフトし、さまざまな画像領域の相互作用のより洗練された理解が可能になります。さらに、研究チームは生成デコーダに識別デコーダを追加し、次の意味的なトークンを自己回帰的に予測します。 視覚領域内の意味的なトークンの予測は、この追加のコンポーネントの責任です。さらに興味深いことに、CLIPのように識別的にトレーニングされたモデルは、この前処理経路に最適な意味的な視覚トークンを提供します。研究チームはこの改良された方法をD-iGPTと呼んでいます。彼らの提案されたD-iGPTの効率性は、さまざまなデータセットとタスクで行われた包括的なテストによって確認されています。関連する唯一のデータセットとしてImageNet-1Kを使用し、彼らのベースサイズのモデルは、従来の最先端モデルを0.6%上回る86.2%のトップ-1分類精度を達成しました。 さらに、彼らの大規模モデルは、3600万の公開データセットで89.5%のトップ-1分類精度を達成します。D-iGPTは、パブリックデータセットで以前の最先端トレーニングと同等のパフォーマンスを発揮しますが、トレーニングデータとモデルのサイズがはるかに少なくなります。同じ前処理とファインチューニングのデータセットを使用して、研究チームはD-iGPTをセマンティックセグメンテーションにも適用し、MAEと比較して優れたパフォーマンスを発揮することを明らかにしました。 “`

メタAIが効率的なSAMを紹介します:パラメータ数が20分の1でランタイムが20倍速いSAMの弟です

ビジョンにおいて、Segment Anything Model (SAM) は、ゼロショットオブジェクト提案生成、ゼロショットインスタンスセグメンテーション、エッジ検出など、数多くの画像セグメンテーションタスクで優れた成果を上げています。 SAMのビジョントランスフォーマ (ViT) モデルの基盤となるのは、SA-1Bビジュアルデータセットです。このデータセットには、1100万枚の写真から10億のマスクが含まれており、与えられた画像内の任意のアイテムをセグメント化することが可能です。Segment Anythingの能力を持つことから、SAMはビジョンにおける基盤モデルに留まらず、ビジョンの外でも活用されています。 これらの利点にもかかわらず、特にViT-Hのような画像エンコーダのようなSAMアーキテクチャの高いコストは、効率の面での実用上の採用を妨げるものとなっています。 この困難に対応するため、最近のいくつかの研究論文では、SAMをプロンプトベースのインスタンスセグメンテーションに利用する際の金銭的負担を軽減する解決策が提案されています。 例えば、既存のデフォルトのViT-H画像エンコーダの専門知識の恩恵を、小さなViT画像エンコーダにも与えることができます。リアルタイムのCNNベースの設計は、Segment Anythingの処理コストを削減することができます。ViT-Tiny/-Smallのような十分にトレーニングされた軽量なViT画像エンコーダを、パフォーマンスを犠牲にすることなく利用することがこの論文では提案されています。 新しいメタAIの研究では、SAMを活用したマスク画像関連の軽量な事前学習されたViTバックボーンを作成しています。このために、研究者たちはSAMモデルで有名なMAE事前学習手法を利用して高品質の事前学習済みViTエンコーダーを確立しました。 具体的には、提案されたSAMIは、イメージパッチではなくSAMのViT-Hから特徴を再構築するためにマスク画像モデルをトレーニングし、SAMエンコーダであるViT-Hを使用して特徴埋め込みを提供します。これにより、画像のカテゴリ分類、オブジェクト識別、セグメンテーションなどの後続操作に利用できる一般的なViTバックボーンが生成されます。その後、事前学習済みの軽量エンコーダをSAMデコーダを利用してセグメンテーションやその他のタスクに適用するように調整されます。 チームはまた、現実世界での実装における品質と効率のトレードオフを持つ軽量なSAMモデルであるEfficientSAMを提供しています。 チームは、224×224の解像度を利用してImageNet上でモデルを再構成損失を用いて事前学習し、その後、対象のタスクで監督データを利用して微調整して、マスク画像事前学習の転移学習の文脈での戦略を評価しました。SAMIによって一般化可能な軽量エンコーダを学習することができます。SAMI事前学習を行ったImageNet-1Kでトレーニングされたモデルは、ViT-Tiny/-Small/-Baseのような一般化能力において優れた結果を示しました。ImageNet-1Kで100エポックで微調整された場合、ViT-Smallモデルでは82.7%のトップ1の正答率を達成し、その性能は他の最先端の画像事前学習ベースラインよりも優れています。オブジェクト検出、インスタンスセグメンテーション、意味セグメンテーションの領域では、チームは事前学習モデルをさらに改良しました。 既存の事前学習ベースラインと比較して、彼らの戦略はこれらのタスクにおいてそれらを上回ります。さらに、小さなモデルでも大幅な改善が見られます。さらに、Segment Anythingのチャレンジもモデルの評価に利用されます。このモデルは、COCO/LVISのゼロショットインスタンスセグメンテーションにおいて、FastSAMや現在の軽量SAMアルゴリズムよりも4.1AP/5.2APの改善が見られます。

ランタイム中に拡散モデルを動的に圧縮するためのシンプルで効果的な加速アルゴリズムDeepCacheを紹介します

人工知能(AI)とディープラーニングの進歩により、人間とコンピューターの相互作用は大きく変革されました。拡散モデルの導入により、生成モデリングはテキスト生成、画像生成、音声合成、映像制作などのさまざまなアプリケーションで驚異的な能力を示しています。 拡散モデルは優れた性能を示しているものの、これらのモデルは通常、モデルサイズの大きさと順次のノイズ除去手順に関連する高い計算コストがあります。これらのモデルは非常に遅い推論速度を持っており、モデルの剪定、蒸留、量子化などの手法を使用してステップごとのモデル推論のオーバーヘッドを低下させるなど、研究者によって様々な取り組みが行われています。 従来の拡散モデルの圧縮方法では、大量の再学習が必要であり、これには実用的および財務的な困難が伴います。この問題を克服するため、研究者チームはディープキャッシュと呼ばれる新しい学習フリーパラダイムを導入し、拡散を加速するために拡散モデルのアーキテクチャを最適化しました。 ディープキャッシュは、拡散モデルの連続したノイズ除去段階に固有の時間的冗長性を利用しています。この冗長性の理由は、いくつかの特徴が連続したノイズ除去ステップで繰り返されるためです。これにより、これらの特性のキャッシングと取り出しの方法を導入することで、重複計算を大幅に削減しています。チームは、このアプローチがU-Netの特性に基づいていることを共有しており、これにより高レベルの特徴を効果的かつ効率的に更新しながら、低レベルの特徴を再利用することができます。 ディープキャッシュの創造的なアプローチにより、Stable Diffusion v1.5に対して2.3倍の高速化が実現されており、CLIPスコアはわずか0.05の低下となっています。また、LDM-4-Gに対しては素晴らしい4.1倍の高速化が実現されており、ただしImageNetではFIDが0.22の低下となっています。 チームはDeepCacheを評価し、実験的な比較で現在の剪定および蒸留手法よりも優れたパフォーマンスを示すことを確認しました。また、既存のサンプリング手法とも互換性があることが示されています。DDIMやPLMSと同様の、またはわずかに優れた性能を示すことが報告されており、同時に生成される出力の品質を損なうことなく、効率を最大限に引き出しています。 研究者は、主な貢献を以下のようにまとめています。 DeepCacheは現在の高速サンプラーとうまく機能し、同様またはより良い生成能力を実現する可能性を示しています。 実行時に拡散モデルを動的に圧縮することで、画像生成の速度を改善しますが、追加のトレーニングは必要ありません。 キャッシュ可能な特徴を使用することで、高レベルの特徴における時間的一貫性を利用して、重複計算を削減します。 拡張キャッシング間隔に対するカスタマイズされた技術を導入することで、DeepCacheは特徴のキャッシュの柔軟性を向上させます。 DDPM、LDM、Stable Diffusionモデルにおいて、CIFAR、LSUN-Bedroom/Churches、ImageNet、COCO2017、PartiPromptでテストした場合、DeepCacheはより効果的な結果を示します。 再学習が必要な剪定および蒸留アルゴリズムよりも優れたパフォーマンスを発揮するDeepCacheは、高い効果性を維持します。 結論として、DeepCacheは従来の圧縮技術の代替手段として、拡散モデルのアクセラレータとして大いに期待されます。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us