CMUとプリンストンの研究者がマンバを発表：多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

来る日本美容業界を変えるテクノロジー：SSMアーキテクチャがトランスフォーマーを上回るディープラーニングアプリケーションにおける画期的進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変されることが成功のパラダイムとなっています。シーケンスモデルは、言語、画像、音声、オーディオ、時系列、ゲノムなど、様々なドメインからの任意のシーケンス入力に対応するもので、これらのファウンデーションモデルの基礎となっています。このアイデアは特定のモデル設計には依存していませんが、トランスフォーマーとその中心となるアテンション層は、ほとんどの現代のファウンデーションモデルの基盤となっています。セルフアテンションは、情報をコンテキストウィンドウ内で緊密にルーティングすることで、複雑な事実を表現することができるため、効果的です。

しかし、この性質には2つの基本的な欠点があります。1つはウィンドウの長さに関する二次的なスケーリング、もう1つは制限されたウィンドウの外部の情報を記述することができないことです。これらの欠点を解決するために、より効果的なアテンションに関連する戦略についての研究が大量に行われていますが、それらはアテンションの成功をもたらす要素と同じ品質を犠牲にすることがしばしばあります。これらのバリエーションが異なるドメイン全体でスケールで実験的に成功したという証拠はまだありません。構造化された状態空間シーケンスモデルは、新しく興味深いシーケンスモデリングアーキテクチャの一族です。これらのモデルは、従来の状態空間モデルから影響を受けており、畳み込みおよび再帰型ニューラルネットワークのハイブリッドと見なすことができます。

これらのモデルは、シーケンスの長さに対して線形またはほぼ線形なスケーリングを持ち、再帰または畳み込みによって非常に高速に計算することができます。また、ロングレンジアリーナなどのベンチマークを支配しており、特定のデータモダリティにおける長距離の相互依存関係のモデリングのためのツールとなっています。多くのSSM（構造化状態空間モデル）のバリエーションが、連続的な信号データを必要とする音声やビジョンなどの領域で効果を示していますが、テキストのような離散で情報密度の高い素材のモデリングにはまだ成功していません。

カーネギーメロン大学とプリンストン大学の研究チームは、従来の研究をさまざまな側面で拡張し、シーケンスの長さとの線形関係を保ちながらトランスフォーマーのようなモデリング能力を向上させる選択された状態空間モデルの新しいカテゴリを提案しています。

選択メカニズム。まず、以前のモデルの重要な欠点を指摘します。それは、入力に応じてデータを効果的に選択することができないことです。研究チームは、重要な合成タスク（セレクティブコピーと誘導ヘッドなど）から得られた理解に基づいてSSMパラメータを入力によってパラメータ化することにより、簡単な選択プロセスを提供しています。これにより、モデルは不要なデータを排除しながら関連する情報を永続的に保持することができます。

ハードウェア対応コード。この簡単な修正は、モデルの計算を技術的に挑戦します。以前のSSMモデルは、計算が効率的に行われるために入力や時間の不変である必要がありました。異なるレイヤー間でのGPUメモリ階層のIOアクセスを防ぐために、ハードウェア対応アプローチを使用してモデルをスキャンに基づいて再帰的に計算します。ただし、拡張された状態は具現化されません。結果として得られる実装は、現在のハードウェア上の以前の技術よりも高速であり、理論的な設計の構築です。

アーキテクチャ：特定の状態空間を組み込んだ簡単で均一なアーキテクチャ設計を提供するために、以前のSSMアーキテクチャの設計とトランスフォーマーのMLPブロックを1つのブロックに組み合わせ、以前の深いシーケンスモデルの設計を簡素化します。

選択的SSMとMambaアーキテクチャの主要な特徴により、これらは完全な再帰モデルとして動作するより広範な基盤モデルの基盤となることができます：

（i）高品質：遺伝学や言語などの密なモダリティにおいてセレクティビティは優れたパフォーマンスを発揮します。

（ii）高速な推論とトレーニング：推論中、モデルを自己回帰的に展開するためのステップごとの時間は定数であり、過去のコンポーネントのキャッシュを必要としないため、計算とメモリのスケーリングはシーケンスの長さに比例します。

（iii）長いコンテキスト：品質と効率の組み合わせにより、シーケンスの長さが100万に達するまで実際のデータでのパフォーマンス向上が得られます。

研究チームは、実験的な証拠をもとに、Mambaの潜在能力を汎用性のあるシーケンスFMのバックボーンとして、さまざまなモダリティや状況における事前学習品質やドメイン特化のタスクパフォーマンスに関してサポートしています：

・人工材料。Mambaは、巨大な言語モデルにとって重要とされるコピーや誘導ヘッドタスクなどの重要な合成タスクを容易に解決するだけでなく、無限に長い解を予測することもできます。

・ゲノミクスとオーディオ。音声波形やDNA配列のモデリングにおいて、事前学習品質や下流のメトリクスに関して、MambaはSaShiMi、Hyena、Transformersなどの従来の最先端モデルを凌ぎます。そのパフォーマンスは、両方のコンテキストで100万文字長のシーケンスまでより多くの文脈を持つことで改善されます。

• モデリング言語。マンバは、下流で実施される評価と事前学習の複雑さの両方で本当にTransformerのようなパフォーマンスを実現する最初の線形時間シーケンスモデルを表しています。

研究チームは、Mambaが、LLaMaに基づく高度なTransformerトレーニングレシピを含む多くのベースラインを上回り、1Bのパラメータまでのスケーリング則に従っています。同じサイズのTransformerと比較して、彼らのMamba言語モデルは5倍の世代スループットを持ち、Mamba-3Bの品質はその2倍のサイズのTransformerと同等です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceDeep learningEditors PickMachine learning

Was this article helpful?

93 out of 132 found this helpful

CMUとプリンストンの研究者がマンバを発表：多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

Was this article helpful?

Google DeepMindはAlphaCode 2を導入しました：競争プログラミングの優れた進歩において、ジェミニモデルの力を利用した人工知能（AI）システム

「GoogleがCloud TPU v5pとAIハイパーコンピューターを発表：AI処理能力の飛躍」

AI研究

「バランスのとれたアクト：推薦システムにおける人気バイアスの解消」

「タイムシリーズの拡張」

AIブームがシリコンバレーを再び変革の狂乱に陥れている

「インドにおけるAI規制のためのPMモディのビジョン：B20サミット2023」

メタファーAPI：LLM向けに構築された革命的な検索エンジン

「BentoML入門：統合AIアプリケーションフレームワーク」