スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています

Stanford University and Mila researchers propose Hyena as an alternative to the core building block of many large-scale language models.

我々は皆、ChatGPTやBardなどの驚異的な生成モデル、およびそれらの基盤技術であるGPT3やGPT4などの開発競争がAI界を大きく揺るがしていることを知っています。しかし、これらのモデルのアクセシビリティ、トレーニング、および実際の実現可能性には、私たちの日常問題に関連する多くのユースケースにおけるまだ多くの課題があります。

もし誰かがこのようなシーケンスモデルを試してみたことがあるなら、確実に興奮を台無しにする問題があるかもしれません。それは、モデルに送信できる入力の長さです。

もし彼らがこれらの技術の核心に踏み込んでカスタムモデルをトレーニングしたいという熱心な人々ならば、最適化プロセス全体が非常に困難な課題になるでしょう。

これらの問題の核心には、シーケンスモデルが利用するアテンションモデルの最適化の二次の性質があります。最大の理由の一つは、そのアルゴリズムの計算コストとこの問題を解決するために必要なリソースです。特にスケールアップしたい場合、これは非常に高価なソリューションになります。その結果、ごく少数の集中した組織だけがこのようなアルゴリズムを理解し、制御することができる明確な感覚を持っています。

単純に言えば、シーケンスの長さに対してアテンションは二次のコストを示します。アクセス可能なコンテキストの量を制限し、それをスケールアップすることは高価な作業です。

しかし、心配しないでください。NLPコミュニティで注目されている新しいアーキテクチャ「ハイエナ」が登場し、私たちが必要としている救世主として称えられています。それは既存のアテンションメカニズムの支配に挑戦し、研究論文ではその潜在能力を示しています。

主要な大学の研究者チームによって開発されたハイエナは、最適化の観点で、さまざまなサブ二次のNLPタスクにおいて印象的なパフォーマンスを誇っています。この記事では、ハイエナの主張を詳しく見ていきます。

この論文は、サブ二次演算子がパラメータと最適化コストの観点でアテンションモデルの品質に匹敵することを示唆しています。対象となる推論タスクに基づいて、著者たちはそのパフォーマンスに寄与する3つの最も重要な特性を抽出しています。

  1. データ制御
  2. 線形未満のパラメータスケーリング
  3. 制約のないコンテキスト

これらのポイントを念頭に置いて、彼らはハイエナ階層を導入します。この新しい演算子は、長い畳み込みと要素ごとの乗算ゲーティングを組み合わせることで、アテンションの品質をスケールできるだけでなく、計算コストを削減します。

行われた実験は驚くべき結果を明らかにしました。

  1. 言語モデリング

ハイエナのスケーリングは、自己回帰言語モデリングでテストされました。WikiText103やThe Pileといったベンチマークデータセットの困惑度で評価された結果、ハイエナは合計FLOPSの20%削減で、GPTの品質に匹敵する初めてのアテンションフリー、畳み込みアーキテクチャです。

WikiText103の困惑度(同じトークナイザー)。∗は(Dao et al., 2022c)の結果です。より深くて細いモデル(Hyena-slim)はより低い困惑度を実現

The Pileの困惑度(合計トークン数ごとの異なる実行)。すべてのモデルは同じトークナイザー(GPT2)を使用します。FLOPのカウントは、150億トークン実行の場合です。

  1. 大規模画像分類

この論文は、ハイエナを画像分類の一般的なディープラーニング演算子としての潜在能力を示しています。画像変換では、ハイエナ演算子をビジョントランスフォーマー(ViT)のアテンションレイヤーと置き換え、ViTと同等のパフォーマンスを達成しています。

私たちはCIFAR-2Dで、標準的な畳み込みアーキテクチャでHyenaの長い2D畳み込みフィルターをテストしました。このモデルは、精度を向上させるだけでなく、8%の高速化と25%のパラメーター削減を実現しています。なお、このモデルは、2Dロング畳み込みモデルS4ND (Nguyen et al., 2022) よりも優れた結果を出しています。

10億パラメータースケールでの有望な結果は、注意力だけでは十分ではなく、シンプルなサブクァドラティック設計(Hyenaなど)が効率的な大規模モデルの基盤となる可能性を示唆しています。これらの設計は、シンプルなガイドラインとメカニスティックな解釈性のベンチマークでの評価に基づいています。

このアーキテクチャがコミュニティに与える波及効果を考えると、Hyenaが最後に笑うことができるかどうか興味深いです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「GPTクローラーに会ってください:サイトをクロールし、知識ファイルを生成し、1つまたは複数のURLからカスタムGPTを作成できるAIツール」

ウェブページから知識を抽出してユニークなGPTモデルを構築できるとしたら、どれほど素晴らしいことでしょうか。 あなた自身...

AI研究

MITの研究者が、生成プロセスの改善のために「リスタートサンプリング」を導入

微分方程式ベースの深層生成モデルは、最近、画像合成から生物学までのさまざまな分野で、高次元データのモデリングにおいて...

AI研究

「UCLA研究者が「Rephrase and Respond」(RaR)を導入、LLMsの人間の質問理解を向上させる新しい人工知能手法を紹介」

研究チームは、Rephrase and Respond(RaR)という方法を導入しました。これは、LLMsのパフォーマンスを向上させるために、人...

AIニュース

「AIが大気衝撃波から津波の初期兆候を見つけることができる」

研究者たちは、市販の人工知能(AI)モデルが、GPS衛星からの2次元(2D)画像から津波の初期兆候を検出できることを発見しました

AIニュース

アマゾンがベッドロックを展開:AIモデルの評価と人間のベンチマーキング

開発において、Amazon Bedrockは、特定のニーズに合わせて選択し、比較し、最適なファウンデーションモデル(FM)を選択する...

AIニュース

「Google CloudがGenerative AIの保護を顧客に約束」

Google Cloudは、顧客の利益に対する取り組みを再確認し、共有のイノベーション、サポート、運命が特徴となる旅へと先進的に...