Learn more about Search Results ImageNet - Page 6

「ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper」 ビジョン・トランスフォーマーにおけるReLU vs. Softmax:シーケンスの長さは重要か?Google DeepMindの研究論文からの洞察

今日一般的な機械学習アーキテクチャは、トランスフォーマーアーキテクチャです。トランスフォーマーの主要なパーツの1つであるアテンションは、トークン全体にわたる確率分布を生成するソフトマックスを持っています。ソフトマックスは、指数計算とシーケンスの長さの合計による計算量のため、並列化が困難です。この研究では、確率分布を常に提供しないポイントワイズのソフトマックスの代替手法について調査しています。特筆すべき発見の1つは、ビジュアルトランスフォーマーの場合、ReLUによるシーケンスの長さで分割されたアテンションのスケーリング動作が、クラシックなソフトマックスアテンションとほぼ同等または一致することです。 この発見により、ReLU-アテンションはシーケンスの長さ次元に沿って標準のアテンションよりも容易に並列化できる新たな可能性が開かれました。以前の研究では、ReLUまたは二乗ReLUがソフトマックスの代替手法として考慮されてきました。ただし、これらの手法はシーケンスの長さで分割されていないため、Google DeepMindの研究者によれば、ソフトマックスと同等の精度を達成するためにはこれが重要です。さらに、以前の研究では、ソフトマックスの役割を果たすことが考慮されており、シーケンスの長さの軸方向での正規化は依然として必要ですが、これにはギャザリングが必要です。さらに、アテンションを線形にするために活性化関数を排除する研究が豊富にあり、これは長いシーケンスの期間に有利です。 彼らの研究では、活性化が完全に除外されると精度が低下しました。彼らのテストは、ハイパーパラメータを変更せずに、BigVisionソースのImageNet-21kおよびImageNet-1kのトレーニング設定を使用しています。ImageNet-21kでは30エポック、ImageNet-1kでは300エポックトレーニングします。その結果、両方のトレーニング実行には約9e5ステップかかります。これは以前の研究でモデルサイズのスケーリング時の不安定性を避けるために必要であることが判明しているため、彼らはqkレイヤーの正規化を持つViTsを使用します。彼らは、これが彼らのスケールにおいて重要な要素ではないと結論づけています。 彼らは、ファインチューニングせずにImageNet-1k内のトップクラスのみを取ることによって、ImageNet-21kモデルのImageNet-1k精度を報告しています。彼らは、転送パフォーマンスを評価するために、3つのシードで平均化された10ショットのリニアプローブを使用します。転送先のタスクには、Caltech Birds、Caltech101、Stanford Cars、CIFAR-100、DTD、ColHsit、Pets、およびUC Mercedがあります。この研究は、多くの未解決の問題を提起しています。なぜ因子L^(-1)がパフォーマンスを向上させるのか、またはこの概念を学習できるかを彼らは発見しなければなりません。さらに、彼らが調査していないより効果的な活性化関数があるかもしれません。

AIのオリンピック:機械学習システムのベンチマーク

何年もの間、4分以内で1マイルを走ることは、単なる困難な課題ではなく、多くの人にとっては不可能な偉業と考えられていましたそれは心理的、身体的な目標であり、多くの人がそうだと思っていました...

「ナノフォトニクスがカメラレンズを平らにする」

「ナノスケールメタ光学は、スマートフォンから隆起を取り除きながら、より良いイメージングの可能性を秘めています」

「医療AIの基礎モデル」

「私たちはPLIPという医療AIの基盤モデルを説明しますPLIPは病理学のAIタスクをサポートするために構築されたビジョン言語モデルです」

「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」

ミクスチャー・オブ・エキスパート(MoE)と呼ばれるニューラルネットワークのアーキテクチャは、さまざまなエキスパートニューラルネットワークの予測を組み合わせます。MoEモデルは、いくつかのサブタスクや問題の要素が専門的な知識を必要とする複雑な作業に対応します。これらは、ニューラルネットワークの表現を強化し、さまざまな難しいタスクを処理できるようにするために導入されました。 さらに、スパースゲーテッド・ミクスチャー・オブ・エキスパート(MoE)として知られるニューラルネットワークのアーキテクチャは、ゲーティングメカニズムに疎結合性を追加することで従来のMoEモデルのアイデアを拡張します。これらのモデルは、MoEデザインの効率性とスケーラビリティを向上させ、コンピューティングコストを低減するために作成されています。 それぞれの入力トークンに対してモデルパラメータの一部のみを独占的に活性化できる能力により、モデルのサイズと推論の効率を切り離すことができます。 ニューラルネットワーク(NN)を使用する場合、特にわずかな計算リソースしか利用できない場合には、パフォーマンスと効率の両方をバランスさせることは依然として困難です。スパースゲーテッド・ミクスチャー・オブ・エキスパートモデル(sparse MoEs)は、モデルのサイズと推論の効率を切り離すことができるため、最近は潜在的な解決策として見なされています。 スパースMoEsは、モデルの能力を増強し、計算コストを最小限に抑える可能性を提供します。これにより、大規模なビジュアルモデリングの主要なアーキテクチャ選択肢であるTransformersと統合するオプションとなります。 このため、Appleの研究チームは、「Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts」という論文で、スパースモバイルビジョンMoEsの概念を紹介しました。これらのV-MoEsは、優れたモデルパフォーマンスを維持しながらVision Transformers(ViTs)を縮小する効率的でモバイルフレンドリーなミクスチャーオブエキスパートデザインです。 研究者は、セマンティックスーパークラスを活用してエキスパートのアンバランスを回避するシンプルで堅牢なトレーニング手順を開発したと強調しています。これにより、パッチごとのルーティングでは通常、各画像に対してより多くのエキスパートがアクティブになりますが、パーイメージルーターでは画像ごとのアクティブなエキスパートの数が減少します。 研究チームは、トレーニングフェーズをベースラインモデルのトレーニングから始めました。その後、モデルの予測をトレーニングデータセットから保持された検証セットに記録し、混同行列を作成しました。この混同グラフは、混同行列を基にグラフクラスタリングアルゴリズムによって処理されました。このプロセスにより、スーパークラスの分割が作成されました。 彼らは、モデルが標準のImageNet-1k分類ベンチマークで経験的な結果を示していると述べています。彼らは、1.28Mの画像からなるImageNet-1kトレーニングセットですべてのモデルをゼロからトレーニングし、その後、50Kの画像からなる検証セットでのトップ1の精度を評価しました。 研究者は将来的にもViTs以外のモバイルフレンドリーモデルでMoEデザインを使用したいと考えています。また、物体検出などの他のビジュアルタスクも考慮に入れる予定です。さらに、すべてのモデルにおける実際のオンデバイスのレイテンシを定量化することを目指しています。

「MITの研究者が、デバイス内の意味的セグメンテーションのための新しい軽量マルチスケールアテンションを紹介」

セマンティックセグメンテーションは、コンピュータビジョンの基本的な課題であり、入力画像の各ピクセルを特定のクラスに分類することを目的としています。自動運転、医療画像処理、計算写真など、セマンティックセグメンテーションが有用な現実世界のコンテキストは数多く存在します。そのため、SOTAセマンティックセグメンテーションモデルをエッジデバイスにインストールして、さまざまな消費者に利益をもたらすことへの需要が高まっています。しかし、SOTAセマンティックセグメンテーションモデルは、エッジデバイスが満たすことができない高い処理要件を持っています。これにより、これらのモデルはエッジデバイスで使用することができません。特にセマンティックセグメンテーションは、高解像度の画像と堅牢なコンテキスト情報の抽出能力を必要とする密な予測タスクの例です。そのため、画像分類で使用される効果的なモデルアーキテクチャをセマンティックセグメンテーションに適用することは適切ではありません。 高解像度の画像内の数百万の個々のピクセルを分類するように要求された場合、機械学習モデルは非常に困難な課題に直面します。最近、ビジョントランスフォーマーという新しいモデルの使用法が非常に効果的に登場しました。 トランスフォーマーの元々の目的は、言語のNLPの効率を改善することでした。そのような設定では、文の単語をトークン化し、それらの単語がどのように接続されているかを示すネットワーク図を作成します。アテンションマップは、モデルの文脈理解能力を向上させます。 アテンションマップを生成するために、ビジョントランスフォーマーは同じアイデアを使用し、画像をピクセルのパッチに分割し、各小さなパッチをトークンにエンコードします。このアテンションマップを生成するために、モデルは各ピクセルのペア間の直接的な相互作用を学習する類似性関数を使用します。これにより、モデルは画像内のすべての重要な詳細を認識するための「グローバル受容野」を作成します。 高解像度の画像には数百万のピクセルが含まれ、それらは数千のパッチに分割されるため、アテンションマップはすぐに非常に大きくなります。その結果、解像度が増加する画像を処理するために必要な計算量は二次的に増加します。 MITのチームは、新しいモデルシリーズであるEfficientViTと名付けられた彼らの新しいモデルシリーズで、アテンションマップの構築方法を単純化するために非線形の類似性関数を線形のものに置き換えました。これにより、演算が行われる順序を変更して必要な計算量を削減し、機能性やグローバル受容野を損なうことなく、入力画像のピクセル数に比例して予測を行うために必要な処理時間が線形にスケーリングします。 EfficientViTファミリーの新しいモデルは、デバイス上でセマンティックセグメンテーションを行います。EfficientViTは、ハードウェア効率の高いグローバル受容野とマルチスケール学習のための革新的な軽量マルチスケールアテンションモジュールに基づいて構築されています。これは、SOTAにインスパイアされたセマンティックセグメンテーションの以前のアプローチに基づいています。 このモジュールは、非効率なハードウェア演算の必要性を最小限に抑えながら、これら2つの重要な機能へのアクセスを提供するために作成されました。具体的には、非効率なセルフアテンションを軽量なReLUベースのグローバルアテンションで置き換え、国際的な受容野を実現することを提案しています。ReLUベースのグローバルアテンションの計算量は、行列の乗算の結合法則を利用することで二次的から線形的に削減することができます。また、softmaxのようなハードウェア集約的なアルゴリズムを使用しないため、オンデバイスのセマンティックセグメンテーションに適しています。 EfficientViTは、CityscapesやADE20Kなどの人気のあるセマンティックセグメンテーションのベンチマークデータセットを使用して、詳細な評価を行うために使用されています。以前のSOTAセマンティックセグメンテーションモデルと比較して、EfficientViTは大幅な性能向上を提供します。 以下に貢献の要点をまとめます: 研究者は、デバイス上でセマンティックセグメンテーションを行うための革新的な軽量マルチスケールアテンションを開発しました。これは、グローバル受容野とマルチスケール学習を実現しながら、エッジデバイス上で優れたパフォーマンスを発揮します。 研究者は、提案された軽量マルチスケールアテンションモジュールに基づいてEfficientViTという新しいモデルファミリーを開発しました。 このモデルは、ImageNetなどの主要なセマンティックセグメンテーションのベンチマークデータセットで、以前のSOTAセマンティックセグメンテーションモデルに比べて、モバイルで大幅な高速化を実現しています。 結論として、MITの研究者は、軽量でハードウェア効率の良い演算を使用してグローバル受容野とマルチスケール学習を実現する革新的な軽量マルチスケールアテンションモジュールを導入しました。その結果、SOTAセマンティックセグメンテーションモデルと比較して、エッジデバイスでのパフォーマンスを損なうことなく、エッジデバイス上での大幅な高速化を実現します。EfficientViTモデルはさらにスケーリングされ、他のビジョンタスクでの利用可能性がさらなる研究で調査される予定です。

Fast.AIディープラーニングコースからの7つの教訓

「最近、Fast.AIのPractical Deep Learning Courseを修了しましたこれまでに多くの機械学習コースを受講してきましたので、比較することができますこのコースは間違いなく最も実践的でインスピレーションを受けるものの一つですですので…」

「機械学習を利用した資産の健全性とグリッドの耐久性の向上」

「機械学習(ML)は、あらゆる産業、プロセス、ビジネスを変革していますが、成功への道は常に直線的ではありませんこのブログ記事では、ノースカロライナ州シャーロットに本社を置くフォーチュン150社であるデュークエナジーが、AWSマシンラーニングソリューションラボ(MLSL)と協力して、画像認識を使用して木製の電力供給ポールの検査を自動化し、停電、財産の損傷、さらにはけがを防ぐ方法を示します」

BYOL(Bootstrap Your Own Latent)— コントラスティブな自己教示学習の代替手段

『今日の論文分析では、BYOL(Bootstrap Your Own Latent)の背後にある論文に詳しく触れますこれは、対比的な自己教師あり学習技術の代替手法を提供します...』

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us