Google DeepMindは、NaViTという新しいViTモデルを導入しましたこのモデルは、トレーニング中にシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します

Google DeepMindは新しいViTモデルNaViTを導入しましたこのモデルはシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します

ビジョントランスフォーマ(ViT)は、そのシンプルさ、柔軟性、スケーラビリティのために、畳み込みベースのニューラルネットワークを迅速に置き換えます。画像はパッチにセグメント化され、各パッチはトークンに線形にプロジェクションされ、このモデルの基礎を形成します。入力写真は通常、正方形に整列し、使用する前に一定数のパッチに分割されます。

最近の研究では、このモデルからの潜在的な逸脱を調査しています。 FlexiViTは、連続的なシーケンス長の範囲を許容し、したがって1つの設計内でさまざまなパッチサイズに対応するためにコストを計算します。これは、各トレーニングイテレーションでパッチサイズをランダムに選択し、初期の畳み込み埋め込みで多数のパッチサイズを収容するためのスケーリング技術を使用することによって実現されます。 Pix2Structの代替パッチング手法は、アスペクト比を維持することで、グラフやドキュメントの理解などの作業には貴重です。

NaViTは、Googleの研究者が開発した代替手法です。パッチn’パックは、異なる解像度を維持しながらアスペクト比を保つための手法で、異なる画像から多数のパッチを単一のシーケンスにまとめることができます。このアイデアは、「例のパッキング」と呼ばれる自然言語処理で使用される技術に基づいており、複数のインスタンスを1つのシーケンスに組み合わせることで、長さの異なる入力で効率的にモデルをトレーニングするためのものです。科学者たちは、ランダムな解像度をサンプリングすることで、大幅なトレーニング時間の短縮が可能であることを発見しました。 NaViTは、幅広い解決策で優れたパフォーマンスを実現し、推論時に滑らかなコストパフォーマンスのトレードオフを容易に実現し、新しいジョブに対して低コストで簡単に適応できます。

アスペクト比を保った解像度サンプリング、可変トークン削除率、適応計算などの研究アイデアは、例のパッキングによって可能になった固定バッチ形状から生じます。

NaViTは、事前トレーニング中の計算効率が特に印象的であり、微調整を通じて持続します。単一のNaViTを異なる解像度に適用することに成功することで、パフォーマンスと推論コストの間の滑らかなトレードオフが可能になります。

トレーニング中および操作中のディープニューラルネットワークにデータを供給する際には、バッチで行うことが一般的です。その結果、コンピュータビジョンアプリケーションでは、最適なパフォーマンスを確保するために、予め決められたバッチサイズとジオメトリを使用する必要があります。このため、畳み込みニューラルネットワークの固有のアーキテクチャ制約とともに、画像を予め決められたサイズにリサイズまたはパッドすることが一般的な慣行となっています。

NaViTは、元のViTに基づいていますが、理論上はパッチのシーケンスを処理できるあらゆるViTのバリアントを使用することができます。研究者たちは、Patch n’ Packをサポートするために以下の構造的な変更を実装しています。 Patch n’ Packは、研究コミュニティによって証明されたように、視覚トランスフォーマにシーケンスパッキングをシンプルに適用することでトレーニング効率を劇的に向上させます。結果として得られるNaViTモデルは、柔軟であり、銀行を破ることなく新しいジョブに簡単に適応することができます。パッチn’パックによって可能になった固定バッチ形式の必要性によって以前は妨げられていた、適応計算やトレーニングと推論の効率を向上させるための新しいアルゴリズムなどの研究も行われています。彼らはまた、NaViTを、ほとんどのコンピュータビジョンモデルの従来のCNN設計の入力とモデリングパイプラインからの変更を表しているため、ViTにとって正しい方向に進む一歩と見ています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

「ハロー効果:AIがサンゴ礁保護に深く関与する」

珊瑚礁の急速な衰退が世界中で進んでいる中、ハワイマノア大学の研究者たちは、空から珊瑚礁の健康を監視するAIベースの調査...

AIニュース

ショッピファイの従業員がAIによるレイオフと顧客サービスの危機を暴露

Twitter上での衝撃的な暴露により、勇敢なShopifyの従業員が非開示契約(NDA)を破り、同社の物議を醸す行動と戦略的方向性に...

機械学習

チューリングのミル:AIスーパーコンピューターが英国の経済エンジンを加速

産業革命の発祥地であるイギリスが、次なる革命に巨額な投資を行うことを発表しました。 イギリス政府は、世界最速のAIスパー...

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

人工知能

「AIを活用したポッドキャストの始め方と成長方法」

「誰でもポッドキャストを持っているように感じるかもしれませんが、ポッドキャストを始めることはまだ大きなチャンスです特...