「リソース制約のあるアプリケーションにおいて、スパースなモバイルビジョンMoEsが密な対応物よりも効率的なビジョンTransformerの活用を解き放つ方法」

Method to unleash the efficiency of sparse mobile vision MoEs in resource-constrained applications by utilizing dense Vision Transformers

ミクスチャー・オブ・エキスパート(MoE)と呼ばれるニューラルネットワークのアーキテクチャは、さまざまなエキスパートニューラルネットワークの予測を組み合わせます。MoEモデルは、いくつかのサブタスクや問題の要素が専門的な知識を必要とする複雑な作業に対応します。これらは、ニューラルネットワークの表現を強化し、さまざまな難しいタスクを処理できるようにするために導入されました。

さらに、スパースゲーテッド・ミクスチャー・オブ・エキスパート(MoE)として知られるニューラルネットワークのアーキテクチャは、ゲーティングメカニズムに疎結合性を追加することで従来のMoEモデルのアイデアを拡張します。これらのモデルは、MoEデザインの効率性とスケーラビリティを向上させ、コンピューティングコストを低減するために作成されています。

それぞれの入力トークンに対してモデルパラメータの一部のみを独占的に活性化できる能力により、モデルのサイズと推論の効率を切り離すことができます。

ニューラルネットワーク(NN)を使用する場合、特にわずかな計算リソースしか利用できない場合には、パフォーマンスと効率の両方をバランスさせることは依然として困難です。スパースゲーテッド・ミクスチャー・オブ・エキスパートモデル(sparse MoEs)は、モデルのサイズと推論の効率を切り離すことができるため、最近は潜在的な解決策として見なされています。

スパースMoEsは、モデルの能力を増強し、計算コストを最小限に抑える可能性を提供します。これにより、大規模なビジュアルモデリングの主要なアーキテクチャ選択肢であるTransformersと統合するオプションとなります。

このため、Appleの研究チームは、「Mobile V-MoEs: Scaling Down Vision Transformers via Sparse Mixture-of-Experts」という論文で、スパースモバイルビジョンMoEsの概念を紹介しました。これらのV-MoEsは、優れたモデルパフォーマンスを維持しながらVision Transformers(ViTs)を縮小する効率的でモバイルフレンドリーなミクスチャーオブエキスパートデザインです。

研究者は、セマンティックスーパークラスを活用してエキスパートのアンバランスを回避するシンプルで堅牢なトレーニング手順を開発したと強調しています。これにより、パッチごとのルーティングでは通常、各画像に対してより多くのエキスパートがアクティブになりますが、パーイメージルーターでは画像ごとのアクティブなエキスパートの数が減少します。

研究チームは、トレーニングフェーズをベースラインモデルのトレーニングから始めました。その後、モデルの予測をトレーニングデータセットから保持された検証セットに記録し、混同行列を作成しました。この混同グラフは、混同行列を基にグラフクラスタリングアルゴリズムによって処理されました。このプロセスにより、スーパークラスの分割が作成されました。

彼らは、モデルが標準のImageNet-1k分類ベンチマークで経験的な結果を示していると述べています。彼らは、1.28Mの画像からなるImageNet-1kトレーニングセットですべてのモデルをゼロからトレーニングし、その後、50Kの画像からなる検証セットでのトップ1の精度を評価しました。

研究者は将来的にもViTs以外のモバイルフレンドリーモデルでMoEデザインを使用したいと考えています。また、物体検出などの他のビジュアルタスクも考慮に入れる予定です。さらに、すべてのモデルにおける実際のオンデバイスのレイテンシを定量化することを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「ChatGPT AI-1の解放:高度なLLMベースのシステムの構築」

導入 この記事では、チャットGPT AI-1を使ったLLM(大規模言語モデル)に基づくシステムの構築について説明します。読者がプ...

機械学習

「ChatGPTは私たちを出し抜いているのか? チューリングテストの視点からの探求」

「機械は思考することができるのか?この記事は、チャットGPTの性能をチューリングテストが設定した厳しい基準に基づいて調査...

AIニュース

「デリー政府、提案された電子都市にAIハブを建設する計画」

技術の進歩に向けた重要な一歩として、デリー政府は提案された電子都市にAIハブを構築することを計画しています。この都市は...

人工知能

「生成AIを通じて脆弱性を明らかにする」

この記事では、コードスキャンについて学び、MuleSoftのAPIでセキュリティに関連するパラメータの露出を報告する方法について...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

人工知能

動的に画像のサイズを調整する

この投稿では、Apache APISIXをimgproxyと組み合わせて使用する方法について、複数の解像度で画像の保存コストを削減する方法...