「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」

Method to unleash the efficiency of sparse mobile vision MoEs in resource-constrained applications by utilizing dense Vision Transformers

ミクスチャー・オブ・エキスパート(MoE)と呼ばれるニューラルネットワークのアーキテクチャは、さまざまなエキスパートニューラルネットワークの予測を組み合わせます。MoEモデルは、いくつかのサブタスクや問題の要素が専門的な知識を必要とする複雑な作業に対応します。これらは、ニューラルネットワークの表現を強化し、さまざまな難しいタスクを処理できるようにするために導入されました。

さらに、スパースゲーテッド・ミクスチャー・オブ・エキスパート(MoE)として知られるニューラルネットワークのアーキテクチャは、ゲーティングメカニズムに疎結合性を追加することで従来のMoEモデルのアイデアを拡張します。これらのモデルは、MoEデザインの効率性とスケーラビリティを向上させ、コンピューティングコストを低減するために作成されています。

それぞれの入力トークンに対してモデルパラメータの一部のみを独占的に活性化できる能力により、モデルのサイズと推論の効率を切り離すことができます。

ニューラルネットワーク(NN)を使用する場合、特にわずかな計算リソースしか利用できない場合には、パフォーマンスと効率の両方をバランスさせることは依然として困難です。スパースゲーテッド・ミクスチャー・オブ・エキスパートモデル(sparse MoEs)は、モデルのサイズと推論の効率を切り離すことができるため、最近は潜在的な解決策として見なされています。

スパースMoEsは、モデルの能力を増強し、計算コストを最小限に抑える可能性を提供します。これにより、大規模なビジュアルモデリングの主要なアーキテクチャ選択肢であるTransformersと統合するオプションとなります。

このため、Appleの研究チームは、「Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts」という論文で、スパースモバイルビジョンMoEsの概念を紹介しました。これらのV-MoEsは、優れたモデルパフォーマンスを維持しながらVision Transformers(ViTs)を縮小する効率的でモバイルフレンドリーなミクスチャーオブエキスパートデザインです。

研究者は、セマンティックスーパークラスを活用してエキスパートのアンバランスを回避するシンプルで堅牢なトレーニング手順を開発したと強調しています。これにより、パッチごとのルーティングでは通常、各画像に対してより多くのエキスパートがアクティブになりますが、パーイメージルーターでは画像ごとのアクティブなエキスパートの数が減少します。

研究チームは、トレーニングフェーズをベースラインモデルのトレーニングから始めました。その後、モデルの予測をトレーニングデータセットから保持された検証セットに記録し、混同行列を作成しました。この混同グラフは、混同行列を基にグラフクラスタリングアルゴリズムによって処理されました。このプロセスにより、スーパークラスの分割が作成されました。

彼らは、モデルが標準のImageNet-1k分類ベンチマークで経験的な結果を示していると述べています。彼らは、1.28Mの画像からなるImageNet-1kトレーニングセットですべてのモデルをゼロからトレーニングし、その後、50Kの画像からなる検証セットでのトップ1の精度を評価しました。

研究者は将来的にもViTs以外のモバイルフレンドリーモデルでMoEデザインを使用したいと考えています。また、物体検出などの他のビジュアルタスクも考慮に入れる予定です。さらに、すべてのモデルにおける実際のオンデバイスのレイテンシを定量化することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ChatGPT Visionのすごい活用方法」

「これらの新しい画像機能により、ChatGPTを利用する新しい方法の世界が広がります」

人工知能

「5つ星アプリを構築する:AIと自動化を利用したモバイルテストの向上」

ソフトウェア開発チームは、高品質なモバイルアプリ体験を提供するために、強力で低コストのツールが必要ですAIと自動化は解...

機械学習

FlashAttentionアルゴリズムの深い探求-パート3

私たちのFlash Attentionシリーズの第3部へようこそ!このセグメントでは、FlashAttention V1アルゴリズムの内部機能について...

機械学習

悪質なコンテンツ検出のためのLLM:利点と欠点

この投稿では、インターネット上の有害なコンテンツを特定するための2つの異なる方法を評価しますそれは、教師あり分類器のト...

機械学習

医療画像AIがより簡単になりました:NVIDIAがMONAIをホステッドクラウドサービスとして提供

本日、NVIDIAは医療画像AIのためのクラウドサービスを立ち上げました。これにより、完全に管理され、クラウドベースのAPIを通...

機械学習

誰が雨を止めるのか? 科学者が気候協力を呼びかける

トップの科学者3人が、コンピューティング史上最も野心的な取り組みの一環として、地球のデジタルツインの構築を支援していま...