Google DeepMindは、NaViTという新しいViTモデルを導入しましたこのモデルは、トレーニング中にシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します

Google DeepMindは新しいViTモデルNaViTを導入しましたこのモデルはシーケンスパッキングを使用して、任意の解像度やアスペクト比の入力を処理します

ビジョントランスフォーマ(ViT)は、そのシンプルさ、柔軟性、スケーラビリティのために、畳み込みベースのニューラルネットワークを迅速に置き換えます。画像はパッチにセグメント化され、各パッチはトークンに線形にプロジェクションされ、このモデルの基礎を形成します。入力写真は通常、正方形に整列し、使用する前に一定数のパッチに分割されます。

最近の研究では、このモデルからの潜在的な逸脱を調査しています。 FlexiViTは、連続的なシーケンス長の範囲を許容し、したがって1つの設計内でさまざまなパッチサイズに対応するためにコストを計算します。これは、各トレーニングイテレーションでパッチサイズをランダムに選択し、初期の畳み込み埋め込みで多数のパッチサイズを収容するためのスケーリング技術を使用することによって実現されます。 Pix2Structの代替パッチング手法は、アスペクト比を維持することで、グラフやドキュメントの理解などの作業には貴重です。

NaViTは、Googleの研究者が開発した代替手法です。パッチn’パックは、異なる解像度を維持しながらアスペクト比を保つための手法で、異なる画像から多数のパッチを単一のシーケンスにまとめることができます。このアイデアは、「例のパッキング」と呼ばれる自然言語処理で使用される技術に基づいており、複数のインスタンスを1つのシーケンスに組み合わせることで、長さの異なる入力で効率的にモデルをトレーニングするためのものです。科学者たちは、ランダムな解像度をサンプリングすることで、大幅なトレーニング時間の短縮が可能であることを発見しました。 NaViTは、幅広い解決策で優れたパフォーマンスを実現し、推論時に滑らかなコストパフォーマンスのトレードオフを容易に実現し、新しいジョブに対して低コストで簡単に適応できます。

アスペクト比を保った解像度サンプリング、可変トークン削除率、適応計算などの研究アイデアは、例のパッキングによって可能になった固定バッチ形状から生じます。

NaViTは、事前トレーニング中の計算効率が特に印象的であり、微調整を通じて持続します。単一のNaViTを異なる解像度に適用することに成功することで、パフォーマンスと推論コストの間の滑らかなトレードオフが可能になります。

トレーニング中および操作中のディープニューラルネットワークにデータを供給する際には、バッチで行うことが一般的です。その結果、コンピュータビジョンアプリケーションでは、最適なパフォーマンスを確保するために、予め決められたバッチサイズとジオメトリを使用する必要があります。このため、畳み込みニューラルネットワークの固有のアーキテクチャ制約とともに、画像を予め決められたサイズにリサイズまたはパッドすることが一般的な慣行となっています。

NaViTは、元のViTに基づいていますが、理論上はパッチのシーケンスを処理できるあらゆるViTのバリアントを使用することができます。研究者たちは、Patch n’ Packをサポートするために以下の構造的な変更を実装しています。 Patch n’ Packは、研究コミュニティによって証明されたように、視覚トランスフォーマにシーケンスパッキングをシンプルに適用することでトレーニング効率を劇的に向上させます。結果として得られるNaViTモデルは、柔軟であり、銀行を破ることなく新しいジョブに簡単に適応することができます。パッチn’パックによって可能になった固定バッチ形式の必要性によって以前は妨げられていた、適応計算やトレーニングと推論の効率を向上させるための新しいアルゴリズムなどの研究も行われています。彼らはまた、NaViTを、ほとんどのコンピュータビジョンモデルの従来のCNN設計の入力とモデリングパイプラインからの変更を表しているため、ViTにとって正しい方向に進む一歩と見ています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「2023年に使用するためのトップ10のAI写真編集ソフト」

現在のデジタル時代は、あらゆるものをキャプチャして保存するための広範な範囲を提供しています。思いがけない瞬間に起こる...

機械学習

「ひとつのAIモデルで全てのオーディオタスクをこなせるのか?UniAudioに出会ってください:新しいユニバーサルオーディオ生成システム」

生成AIの重要な側面の1つは音声生成です。近年、生成AIの人気の高まりにより、音声制作における多様で新興のニーズがますます...

機械学習

「ディープラーニングモデルのレイヤーを凍結する方法 - 正しいやり方」

「モデルの微調整を行いたい場合や、処理する例に応じて一部のパラメータを固定することは、しばしば有用です以下の例で示さ...

機械学習

AI倫理の役割:革新と社会的責任のバランス

「人工知能は急速に拡大している分野を表しており、AIが引き起こす倫理的なジレンマを認識することが重要です」

機械学習

「Appleが『AppleGPT』チャットボットを使った生成AI競争に参入」

テック大手のAppleは、大いに期待されているAI搭載チャットボット「AppleGPT」という仮の名前で進んでいます。この革新的なプ...

機械学習

NVIDIAのCEO、ヨーロッパの生成AIエグゼクティブが成功の鍵を議論

3つの主要なヨーロッパの生成AIスタートアップが、NVIDIAの創設者兼CEOのジェンソン・ホアンと一緒に新しいコンピューティン...