Google DeepMindは、NaViTという新しいViTモデルを導入しましたこのモデルは、トレーニング中にシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します
Google DeepMindは新しいViTモデルNaViTを導入しましたこのモデルはシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します
ビジョントランスフォーマ(ViT)は、そのシンプルさ、柔軟性、スケーラビリティのために、畳み込みベースのニューラルネットワークを迅速に置き換えます。画像はパッチにセグメント化され、各パッチはトークンに線形にプロジェクションされ、このモデルの基礎を形成します。入力写真は通常、正方形に整列し、使用する前に一定数のパッチに分割されます。
最近の研究では、このモデルからの潜在的な逸脱を調査しています。 FlexiViTは、連続的なシーケンス長の範囲を許容し、したがって1つの設計内でさまざまなパッチサイズに対応するためにコストを計算します。これは、各トレーニングイテレーションでパッチサイズをランダムに選択し、初期の畳み込み埋め込みで多数のパッチサイズを収容するためのスケーリング技術を使用することによって実現されます。 Pix2Structの代替パッチング手法は、アスペクト比を維持することで、グラフやドキュメントの理解などの作業には貴重です。
NaViTは、Googleの研究者が開発した代替手法です。パッチn’パックは、異なる解像度を維持しながらアスペクト比を保つための手法で、異なる画像から多数のパッチを単一のシーケンスにまとめることができます。このアイデアは、「例のパッキング」と呼ばれる自然言語処理で使用される技術に基づいており、複数のインスタンスを1つのシーケンスに組み合わせることで、長さの異なる入力で効率的にモデルをトレーニングするためのものです。科学者たちは、ランダムな解像度をサンプリングすることで、大幅なトレーニング時間の短縮が可能であることを発見しました。 NaViTは、幅広い解決策で優れたパフォーマンスを実現し、推論時に滑らかなコストパフォーマンスのトレードオフを容易に実現し、新しいジョブに対して低コストで簡単に適応できます。
- 「仕事は続けられますが、同じ仕事ではありません」
- 「いや、いや、そこには置かないで!このAIメソッドは拡散モデルを使って連続的なレイアウト編集が可能です」
- 「I2D2に会ってください:制約付きデコーディングと自己模倣学習を用いた言語モデルからの汎用知識生成のための新しいAIフレームワーク」
アスペクト比を保った解像度サンプリング、可変トークン削除率、適応計算などの研究アイデアは、例のパッキングによって可能になった固定バッチ形状から生じます。
NaViTは、事前トレーニング中の計算効率が特に印象的であり、微調整を通じて持続します。単一のNaViTを異なる解像度に適用することに成功することで、パフォーマンスと推論コストの間の滑らかなトレードオフが可能になります。
トレーニング中および操作中のディープニューラルネットワークにデータを供給する際には、バッチで行うことが一般的です。その結果、コンピュータビジョンアプリケーションでは、最適なパフォーマンスを確保するために、予め決められたバッチサイズとジオメトリを使用する必要があります。このため、畳み込みニューラルネットワークの固有のアーキテクチャ制約とともに、画像を予め決められたサイズにリサイズまたはパッドすることが一般的な慣行となっています。
NaViTは、元のViTに基づいていますが、理論上はパッチのシーケンスを処理できるあらゆるViTのバリアントを使用することができます。研究者たちは、Patch n’ Packをサポートするために以下の構造的な変更を実装しています。 Patch n’ Packは、研究コミュニティによって証明されたように、視覚トランスフォーマにシーケンスパッキングをシンプルに適用することでトレーニング効率を劇的に向上させます。結果として得られるNaViTモデルは、柔軟であり、銀行を破ることなく新しいジョブに簡単に適応することができます。パッチn’パックによって可能になった固定バッチ形式の必要性によって以前は妨げられていた、適応計算やトレーニングと推論の効率を向上させるための新しいアルゴリズムなどの研究も行われています。彼らはまた、NaViTを、ほとんどのコンピュータビジョンモデルの従来のCNN設計の入力とモデリングパイプラインからの変更を表しているため、ViTにとって正しい方向に進む一歩と見ています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- AIにおける音の革命に備えよう 2023年は生成音波の年です
- 2023年のトップジェネレーティブAI企業
- 「一貫性への超克:このAIモデルは、頑強なテキストから3D生成のための拡散モデルの3D認識を教える」
- 「LMQLに出会ってください:大規模言語モデル(LLM)との対話のためのオープンソースプログラミング言語とプラットフォーム」
- 「セマンティック-SAMに会ってください:ユーザーの入力に基づいて任意の粒度でオブジェクトをセグメント化および認識する、万能な画像セグメンテーションモデル」
- 「AudioGPTをご紹介します:ChatGPTとオーディオファウンデーションモデルを結ぶマルチモーダルAIシステム」
- 「DISCOに会おう:人間のダンス生成のための革新的なAI技術」