Search Results Transformer

「LLMの解読：PythonでスクラッチからTransformerエンコーダとマルチヘッドアテンションレイヤを作成する」

「大規模言語モデルにおけるエンコーダー、マルチヘッドアテンション、および位置エンコーディングの微妙な点を探る」

このAI研究では、LSS Transformerを発表しましたこれは、Transformerにおける効率的な長いシーケンスの学習を革新的なAIアプローチで実現します

新しいAI研究では、Long Short-Sequence Transformer (LSS Transformer)という効率的な分散学習手法が紹介されました。この手法は、長いシーケンスをGPU間でセグメント化し、各GPUが部分的なセルフアテンション計算を処理します。 LSS Transformerは統合通信とユニークなダブル勾配平均技術を採用し、伝送オーバーヘッドを最小限に抑え、驚異的な高速化とメモリ削減を実現し、他のシーケンス並列手法を凌駕しています。Wikipedia enwik8データセットでの性能評価では、LSS Transformerは複数のGPUでより高速な学習と改善されたメモリ効率を実現し、Nvidiaのシーケンス並列処理を上回りました。セルフアテンションメカニズムで知られるトランスフォーマーは、自然言語処理や画像処理で使用される強力なニューラルネットワークアーキテクチャです。より長いシーケンスでトランスフォーマーを訓練することは、文脈情報の把握と予測精度を高める一方で、メモリと計算量の要求を増加させます。この課題に対応するために、階層的な訓練、アテンションの近似、および分散シーケンス並列処理など、さまざまなアプローチが試されています。 LSS Transformerは、Wikipedia enwik8データセットで144台のNvidia V100 GPUを使用して、従来のシーケンス並列処理を超える、学習速度を5.6倍向上させ、メモリ効率を10.2倍向上させました。さらに、3,456台のGPUで極端なシーケンス長（50,112）を処理し、161%の超線形並列効率と32ペタフロップの高いスループットを達成しました。LSS Transformerは、他のシーケンス並列手法と比較して、大規模なモデル実験（108台のGPUを使用）で高いスケーリング効率とベースライン並列処理との比較における小さなメモリフットプリントを維持しました。LSS Transformerは、144ノードでの50,112のシーケンス長に対して8ペタフロップの計算スループットを提供し、速度とスケーラビリティの面でベースラインのシーケンス並列処理を凌駕しました。 LSS Transformerは、長いシーケンスでトランスフォーマーモデルを訓練する課題に対する画期的な解決策を提供し、通信オーバーヘッドを最小限に抑えながら、驚異的な高速化とメモリ効率を実現する分散学習手法です。この手法はシーケンスをGPU間でセグメント化し、統合通信とダブル勾配平均を利用します。LSS Transformerの超長シーケンストレーニングを促進する能力は、DNAシーケンス解析、長文要約、および画像処理など、多くのトークンの依存性を必要とするアプリケーションにとって貴重なアセットとなります。この研究にはいくつかの制約があります。まず、Nvidiaのシーケンス並列処理に焦点を当て、長いシーケンストレーニングの既存の方法と比較する必要があります。次に、LSS Transformerによって実現される精度と効率のトレードオフを詳しく調査する必要があります。さらに、潜在的な実世界の実装上の課題に対処する必要があります。また、LSS Transformerの性能に対するハイパーパラメータやアーキテクチャの変更の影響を探ることはありません。最後に、計算とメモリ使用の削減に対する近似ベースのアプローチとの包括的な比較がありません。 LSS…

中国の研究者がiTransformerを提案：時間系列予測のためのTransformerアーキテクチャの見直し

トランスフォーマーは、自然言語処理とコンピュータビジョンで大成功を収めた後、スケーリングのルールに従う基本モデルとなりました。タイムシリーズ予測では、他の広範な分野での巨大な成功によって、シーケンスからの多レベル表現の抽出とペアワイズ関係の表現が非常に可能なトランスフォーマーの出現が見られます。しかし、同じタイムスタンプの複数の変数を区別できないチャネルに埋め込み、これらの時間的トークンに重点を置いて時間的関係を捉えるために通常使用されるトランスフォーマーベースの予測の妥当性が、最近では学者たちからの批判の的となっています。彼らは、多変量時系列予測は、トランスフォーマーベースの予測の現在の構造によりよくフィットする可能性があると指摘しています。図2の左パネルでは、同じ時間ステップからのポイントが、相反する計測によって捉えられる根本的に異なる物理的意味を持ち、多変量の相関が消滅した単一のトークンに組み合わされていることが示されています。さらに、現実世界の高度に局所的な受容野と、複数の時間点の不整合したタイムスタンプにより、単一のタイムステップによって作成されたトークンは有用な情報を披露するのが困難かもしれません。また、時間の次元では、系列の変動に順序が重要な影響を与える可能性があるにもかかわらず、順列不変の注意機構が不適切に使用されています。その結果、トランスフォーマーは多変量の相関を記述し、重要な系列表現を捉える能力を失い、さまざまな時系列データへの適用と一般化能力を制限しています。彼らは、時系列の逆の観点を用い、各変数の全時系列を個別にトークンに埋め込む、多変量のポイントをトークンとして埋め込むというパッチングの極端な例を使用します。埋め込まれたトークンは、シリーズのグローバルな表現を逆に集約し、多変量の相関とさらに多様な視点に適したブーミングアテンションメカニズムにより、よりよく活用される可能性があります。図1: iTransformerの性能。平均結果（MSE）の報告にはTimesNetが使用されます。一方、フィードフォワードネットワークは、任意のルックバック系列からエンコードされ、次の系列の予測を行うためにデコードされる、異なる変数の十分に一般化された表現を獲得するためにトレーニングされるかもしれません。上記の理由から、彼らは、トランスフォーマーが時系列予測に無力ではなく、むしろ誤った方法で使用されていると考えています。彼らはこの研究でトランスフォーマーのアーキテクチャを再度検討し、iTransformerを時系列予測の基本的なフレームワークとして推進します。技術的な観点では、彼らは系列エンコーディングにフィードフォワードネットワークを使用し、多変量の相関に注意を払い、各時系列を変数のトークンとして埋め込みます。実験の観点では、提案されたiTransformerは、図1の実世界の予測ベンチマークでトランスフォーマーベースの予測の欠点を予想外に解消しながら、最先端のパフォーマンスを実現します。図2: 提案されたiTransformer (下段) と Vanilla Transformer (上段) の比較。Vanilla Transformer は各タイムステップを時間トークンに埋め込むのに対し、iTransformer は全体の系列を独立した変数トークンに埋め込みます。その結果、フィードフォワードネットワークは系列の表現をエンコードし、アテンションメカニズムは多変量の相関を示すことができます。彼らが貢献した3つの点は以下の通りです: • 清華大学の研究者が提案した iTransformer は、独立した時間系列をトークンとして扱い、自己アテンションによって多変量の相関を捉えることができます。層正規化とフィードフォワードネットワークモジュールを使用して、より良い系列全体の表現を学習し、時系列予測に利用することができます。 • 彼らはTransformerアーキテクチャを反省し、時間系列のネイティブTransformerコンポーネントの能力が未開拓であることを洗練させました。…

「画像認識の再構想：GoogleのVision Transformer（ViT）モデルが視覚データ処理のパラダイムシフトを明らかにする」

画像認識において、研究者や開発者は常に革新的なアプローチを追求してコンピュータビジョンシステムの精度と効率を向上させようとしています。伝統的に、畳み込みニューラルネットワーク（CNN）は画像データの処理に使用されるモデルとして主要な選択肢であり、意味のある特徴を抽出し視覚情報を分類する能力を活用してきました。しかし、最近の進展により、トランスフォーマベースのモデルを視覚データ分析に統合することが促進され、代替アーキテクチャの探求が行われるようになりました。そのような画期的な進展の一つが、ビジョントランスフォーマ（ViT）モデルであり、画像をパッチのシーケンスに変換し、標準のトランスフォーマエンコーダを適用して価値ある洞察を視覚データから抽出する方法を再考しています。セルフアテンションメカニズムを活用し、シーケンスベースの処理を利用することで、ViTは画像認識に新しい視点を提供し、伝統的なCNNの能力を超え、複雑な視覚課題の効果的な処理に新たな可能性を拓いています。 ViTモデルは、2D画像をフラット化された2Dパッチのシーケンスに変換することで、画像データの処理において伝統的な理解を再構築し、元々自然言語処理（NLP）タスクで考案された標準的なトランスフォーマーアーキテクチャを適用します。各層に焼きこまれた画像固有の帰納バイアスに大きく依存するCNNとは異なり、ViTはグローバルなセルフアテンションメカニズムを活用し、モデルが効果的に画像シーケンスを処理するための一定の潜在ベクトルサイズを使用します。また、モデルの設計では学習可能な1D位置埋め込みを統合し、埋め込みベクトルのシーケンス内で位置情報を保持することが可能になります。さらに、ViTはCNNの特徴マップからの入力シーケンス形成を受け入れるハイブリッドアーキテクチャを通じて、異なる画像認識タスクに対する適応性と汎用性を向上させます。提案されたビジョントランスフォーマ（ViT）は、画像認識タスクでの優れたパフォーマンスを示し、精度と計算効率の面で従来のCNNベースのモデルに匹敵します。セルフアテンションメカニズムとシーケンスベースの処理の力を活かして、ViTは画像データ内の複雑なパターンと空間関係を効果的に捉え、CNNに内在する画像固有の帰納バイアスを超越します。モデルの任意のシーケンス長の処理能力と画像パッチの効率的な処理により、ViTはImageNet、CIFAR-10/100、Oxford-IIIT Petsなどの人気のある画像分類データセットを含むさまざまなベンチマークで優れた結果を収めることができます。研究チームによって実施された実験は、JFT-300Mなどの大規模データセットで事前学習を行った場合、ViTが最先端のCNNモデルを圧倒し、事前学習には大幅に少ない計算リソースを使用することを示しています。さらに、モデルは自然な画像分類から幾何学的理解を必要とする特殊なタスクまで幅広いタスクを扱う能力を示し、堅牢かつスケーラブルな画像認識ソリューションとしての潜在能力を確立しています。まとめると、ビジョントランスフォーマ（ViT）モデルは、Transformerベースのアーキテクチャの力を活用して視覚データを効果的に処理する、画像認識における画期的なパラダイムシフトを提案しています。伝統的な画像解析アプローチを再構築し、シーケンスベースの処理フレームワークを採用することにより、ViTは従来のCNNベースのモデルを上回るパフォーマンスを示し、計算効率を維持しながら、さまざまな画像分類ベンチマークで優れた結果を収めます。グローバルなセルフアテンションメカニズムと適応的なシーケンス処理を活用することにより、ViTは複雑な視覚タスクを処理するための新たな展望を開き、コンピュータビジョンシステムの未来に向けた有望な方向性を提供します。

「JAXとHaikuを使用してゼロからTransformerエンコーダを実装する🤖」

2017年に「アテンションはすべて」という画期的な論文で紹介されたトランスフォーマーアーキテクチャは、最近の深層学習の歴史の中でも最も影響力のあるブレークスルーの一つと言えるでしょう

「MatFormerをご紹介します：プラットフォーム間で柔軟なモデル展開を可能にする、汎用なネストされたTransformerアーキテクチャ」

Transformerモデルは、強力なマルチアクセラレータクラスタから個々のモバイルデバイスまで、さまざまなアプリケーションで使用されます。これらの設定での推論のさまざまな要件により、開発者はPaLM 2、Llama、ViTsなどの基本モデルを異なるサイズでトレーニングします。ただし、トレーニングに関連する高いコストにより、サポートされるモデルサイズの範囲が制限されます。大規模な基本モデルは、モバイル電話での迅速な応答や大規模なWebアプリケーションのマルチクラスタGPUでのバッチ処理など、さまざまな状況で使用されます。各モデルは、さまざまな状況に対応するために、異なるサイズで独立にトレーニングされたモデルの選択肢を提供します。これらのモデルサイズは、通常、対数スケールでおおよそ線形にグループ化されます。そのため、Google Research、テキサス大学オースティン校、ワシントン大学、ハーバード大学の研究者グループは、最新の論文「MatFormer：Elastic InferenceのためのネストされたTransformer」で明らかにしたように、アダプタビリティのために明示的に作成されたTransformerアーキテクチャであるMatFormerを導入しました。MatFormerを使用すると、追加のトレーニングなしで多数の小さなサブモデルを生成できる統合モデルを構築することが容易になります。彼らは、標準のTransformer内にネストされたサブ構造を組み込み、すべての粒度を共同で最適化して、単一の汎用弾性モデルを生成しています。研究者たちは、意図的にさまざまなサイズの情報をユニバーサルなMatFormerモデルのさまざまなレイヤーに混在させることで、追加のトレーニングコストを負担せずに多くの正確なサブモデルを生成したと強調しています。MatFormerアーキテクチャの各Feed Forward Network（FFN）ブロックは、より小さなネストされたFFNブロックのコレクションで最適化されています。このトレーニングアプローチにより、異なるレイヤー間でモデルの複雑さを組み合わせて調整しました。ネスト構造は、Feed Forward Network（FFN）ブロックの非表示表現上に実装されており、注意ヘッドが重要度の順に配置されることでモデルの能力が拡大されます。最も重要なものから最も重要でないものまで、注意ヘッド内のサブ構造が作成されます。より重要なヘッドがより多くのサブモデルに分散されるため、独立してトレーニングされた同等のTransformerベースのサブモデルに比べてトレーニングが15％加速されます。さらに、この方法は特に最適化されたサブモデルカーブと整合し、精度を維持しながら複数の小さなサブモデルの抽出を許可します。研究者たちは、MatFormerの各レイヤーに対して異なる詳細レベルを選択することで、さまざまな正確な小さいモデルをさらなる最適化なしに生成できることを発見しました。研究チームは、モデルの種類（デコーダとエンコーダ）、モダリティ（言語とビジョン）、およびスケール（最大26億パラメータまで）の効果を研究しました。研究者たちは、これらの小さなモデルを独立にトレーニングされた対応するモデルと比較することで、類似の検証損失とワンショットのダウンストリームパフォーマンスを実証しました。また、MatFormerは堅牢な汎化性を示し、ビジョンエンコーダ（MatViT）およびデコーダのみの言語モデル（MatLM）として優れた動作をします。精度と信頼性の面では、従来のTransformerに類似したスケーリングを実現しています。

「PIXART-αに会ってください：画像生成の品質が最先端の画像生成器と競争するTransformerベースのT2I拡散モデル」

テキストから画像への変換（T2I）生成モデルであるDALLE 2、Imagen、Stable Diffusionの開発により、フォトリアルな画像合成の新時代が始まりました。これは、写真編集、ビデオ制作、3Dアセットの作成などを含む多くの下流アプリケーションに大きな影響を与えています。ただし、これらの洗練されたモデルは大きな処理能力を要求します。たとえば、SDv1.5のトレーニングには6K A100 GPU日が必要で、コストは約$320,000です。より最新の大きなモデルであるRAPHAELの場合、さらに60K A100 GPU日が必要であり、コストは約$3,080,000です。また、トレーニングにより環境に負荷がかかるため、大量のCO2排出物を生み出します。たとえば、RAPHAELのトレーニングでは35トンのCO2排出物が生じます。これは、図1に示すように、一人が7年間に排出するCO2量と同じです。図1： T2Iの生産者間でのCO2排出量とトレーニングコストの比較がここで示されています。PIXART-αのトレーニングには驚異的な$26,000がかかります。ただし、私たちのCO2排出量とトレーニング費用はRAPHAELよりもわずかに1.1％と0.85％少ないです。このような高価格は、研究コミュニティや企業の両方におけるこれらのモデルの入手に大きな制約をもたらし、AIGCコミュニティの重要な進展を大幅に妨げています。このような困難に関して重要な問いが提起されています：リソース使用を管理可能なレベルにおいて、高品質の画像生成器を作成できるのでしょうか？華為ノアズアークラボ、大連理工大学、香港大学、香港科技大学の研究者は、PIXART-αを提案しました。それは、最新の最先端画像生成器と競争力のある画像生成品質を保ちながら、トレーニングの計算要件を劇的に低減します。それには、次の3つの主な設計が含まれます：自然画像のピクセルの分布を学習することテキストと画像の整合性を学習すること画像の美的魅力を向上させること彼らは、最初のサブタスクであるピクセルの分布の学習コストを著しく低減するために、T2Iモデルを低コストのクラス条件モデルで初期化することを提案しています。彼らは、2番目と3番目のサブタスクのための事前トレーニングと微調整で構成されるトレーニングパラダイムを提供します。高い情報密度を持つテキスト-イメージペアデータでの事前トレーニングに続いて、より美的品質の高いデータでの微調整を行い、トレーニングの効果を高めます。その他、T2Iトランスフォーマーという効率的なモデルの提供。彼らは、テキスト条件を注入するためにクロスアテンションモジュールを使用し、計算の要求が高いクラス条件ブランチの単純化をDiffusion Transformer（DiT）に基づいて行います。さらに、変更したテキストから画像へのモデルにオリジナルのクラス条件モデルのパラメータを直接インポートできる再パラメータ化方法を提案しています。これにより、T2Iトランスフォーマーには受け入れ可能な初期化が可能になり、トレーニングを加速するためにImageNetの自然な画像分布の過去の知識が活用されます。高品質な情報。彼らの研究では、既存のテキスト-イメージペアデータセットに重要な欠陥があることが明らかになっています（例：LAION）。テキストのキャプションは、非常に低頻度で数多くの名詞が現れる重いロングテール効果や、画像内のオブジェクトの一部しか記述していない情報の欠如などの問題を抱えています。これらの欠点は、T2Iモデルのトレーニングの効果を大幅に低下させ、信頼性のあるテキスト-イメージの整合性を得るために何百万回もの反復が必要とされます。彼らは、これらの問題を克服するために、最も先進的なビジョン言語モデルを使用して自動ラベリングパイプラインを提案しています。 SAMデータセットは大きく多様なオブジェクトのコレクションを持つという利点があり、情報密度の高いテキスト-イメージのペアを生成するための理想的なソースです。彼らの巧妙な機能により、モデルのトレーニングは非常に効率的に行われ、675 A100 GPU日と$26,000のみで済みます。図1は、彼らの手法がImagenよりも少ないトレーニングデータ量（0.2％ vs Imagen）とトレーニング時間（2％ vs RAPHAEL）を使用し、RAPHAELの1％程度のトレーニング費用（$3,080,000の代わりに$26,000）を削減する方法を示しています。世代品質に関しては、PIXART-αは現在のSOTA…

デコード Transformersを平易な英語で説明します

コード、数学、またはキー、クエリ、値の言及なし

このAI論文は、RetNetとTransformerの融合であるRMTを紹介し、コンピュータビジョンの効率と精度の新しい時代を開拓しています

NLPにデビューした後、Transformerはコンピュータビジョンの領域に移され、特に効果的であることが証明されました。それに対して、NLPコミュニティでは最近、Transformerの代わりになりうるデザインであるRetentive Network（RetNet）に非常に興味を持っています。中国の研究者は、RetNetのコンセプトをビジョンに適用することによって同様に印象的なパフォーマンスが得られるのか疑問に思っています。この問題を解決するために、彼らはRetNetとTransformerのハイブリッドであるRMTを提案しています。RetNetの影響を受けたRMTは、ビジョンバックボーンに明示的な減衰を追加し、ビジョンモデルが空間距離に関する以前の知識を使用できるようにします。この距離に関連した空間事前知識により、各トークンの知覚帯域を正確に調整することが可能です。また、モデリングプロセスを画像の2つの座標軸に沿って分解することで、グローバルモデリングの計算コストを低下させる助けとなります。広範な実験により、RMTがさまざまなコンピュータビジョンのタスクで優れた成果を上げていることが示されました。たとえば、4.5G FLOPSのみで、RMTはImageNet-1kで84.1％のTop1-accを達成します。モデルがほぼ同じサイズであり、同じ技術を使用してトレーニングされている場合、RMTは常に最高のTop1-accを生み出します。オブジェクト検出、インスタンスセグメンテーション、意味論的セグメンテーションなどの下流のタスクでは、RMTは既存のビジョンバックボーンを大幅に上回ります。提案された戦略が機能することを示す広範な実験が行われており、研究者は主張を裏付けています。RMTは、最先端のモデルに比べて画像分類タスクで劇的に優れた結果を収めます。モデルは、オブジェクト検出やインスタンスセグメンテーションなどのさまざまなタスクで競合モデルを上回っています。以下の人々が貢献しています：研究者は、ビジョンモデルに距離に関する空間事前知識を取り入れ、Retentive Networkの主要プロセスである保持を2次元の設定にもたらしています。Retentive SelfAttention（ReSA）という名前の新しいメカニズムです。計算を簡素化するため、研究者はReSAを2つの画像軸に沿って分解しています。この分解戦略により、必要な計算努力を効率的に削減することができます。広範なテストにより、RMTの優れたパフォーマンスが証明されています。RMTは特にオブジェクト検出やインスタンスセグメンテーションなどの下流タスクで大きな利点を示しています。要するに、研究者たちはRetentive NetworkとVision Transformerを組み合わせたビジョンバックボーンであるRMTを提案しています。RMTでは、空間事前知識が距離に関連した明示的な減衰の形で視覚モデルに導入されます。頭字語ReSAは、改良されたメモリ保持の新しいプロセスを説明しています。RMTはまた、モデルを簡素化するためにReSAを2つの軸に分解する技術を使用しています。広範な実験により、RMTの効率性が確認されており、特にRMTはオブジェクト検出などの下流タスクで注目すべき利点を示しています。

「ReLU vs. Softmax in Vision Transformers Does Sequence Length Matter? Insights from a Google DeepMind Research Paper」ビジョン・トランスフォーマーにおけるReLU vs. Softmax：シーケンスの長さは重要か？Google DeepMindの研究論文からの洞察

今日一般的な機械学習アーキテクチャは、トランスフォーマーアーキテクチャです。トランスフォーマーの主要なパーツの1つであるアテンションは、トークン全体にわたる確率分布を生成するソフトマックスを持っています。ソフトマックスは、指数計算とシーケンスの長さの合計による計算量のため、並列化が困難です。この研究では、確率分布を常に提供しないポイントワイズのソフトマックスの代替手法について調査しています。特筆すべき発見の1つは、ビジュアルトランスフォーマーの場合、ReLUによるシーケンスの長さで分割されたアテンションのスケーリング動作が、クラシックなソフトマックスアテンションとほぼ同等または一致することです。この発見により、ReLU-アテンションはシーケンスの長さ次元に沿って標準のアテンションよりも容易に並列化できる新たな可能性が開かれました。以前の研究では、ReLUまたは二乗ReLUがソフトマックスの代替手法として考慮されてきました。ただし、これらの手法はシーケンスの長さで分割されていないため、Google DeepMindの研究者によれば、ソフトマックスと同等の精度を達成するためにはこれが重要です。さらに、以前の研究では、ソフトマックスの役割を果たすことが考慮されており、シーケンスの長さの軸方向での正規化は依然として必要ですが、これにはギャザリングが必要です。さらに、アテンションを線形にするために活性化関数を排除する研究が豊富にあり、これは長いシーケンスの期間に有利です。彼らの研究では、活性化が完全に除外されると精度が低下しました。彼らのテストは、ハイパーパラメータを変更せずに、BigVisionソースのImageNet-21kおよびImageNet-1kのトレーニング設定を使用しています。ImageNet-21kでは30エポック、ImageNet-1kでは300エポックトレーニングします。その結果、両方のトレーニング実行には約9e5ステップかかります。これは以前の研究でモデルサイズのスケーリング時の不安定性を避けるために必要であることが判明しているため、彼らはqkレイヤーの正規化を持つViTsを使用します。彼らは、これが彼らのスケールにおいて重要な要素ではないと結論づけています。彼らは、ファインチューニングせずにImageNet-1k内のトップクラスのみを取ることによって、ImageNet-21kモデルのImageNet-1k精度を報告しています。彼らは、転送パフォーマンスを評価するために、3つのシードで平均化された10ショットのリニアプローブを使用します。転送先のタスクには、Caltech Birds、Caltech101、Stanford Cars、CIFAR-100、DTD、ColHsit、Pets、およびUC Mercedがあります。この研究は、多くの未解決の問題を提起しています。なぜ因子L^(-1)がパフォーマンスを向上させるのか、またはこの概念を学習できるかを彼らは発見しなければなりません。さらに、彼らが調査していないより効果的な活性化関数があるかもしれません。

Learn more about Search Results Transformer