トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

「StripedHyena-7B」という代替人工知能モデルを紹介します:トゥギャザーアイを最高のオープンソーストランスフォーマーに対抗するShortおよびLongコンテキストの評価で

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランスフォーマーに代わる選択肢を提供することで、計算効率とパフォーマンスを向上させることで、このフィールドを革新しました。

このリリースには、ベースモデルのStripedHyena-Hessian-7B(SH 7B)とチャットモデルのStripedHyena-Nous-7B(SH-N 7B)が含まれています。StripedHyenaは、昨年作成されたH3、Hyena、HyenaDNA、およびMonarch Mixerといった効果的なシーケンスモデリングアーキテクチャの学習からの重要な知見に基づいています。

研究者は、このモデルが長いシーケンスをトレーニング、ファインチューニング、および生成する際に、高速かつメモリ効率が向上していることを強調しています。StripedHyenaは、ゲート付き畳み込みとアテンションを組み合わせたハイエナオペレータと呼ばれるものによって、ハイブリッド技術を使用しています。また、このモデルは、強力なトランスフォーマーベースモデルと競合する初めての代替アーキテクチャです。OpenLLMリーダーボードのタスクを含むショートコンテキストのタスクでは、StripedHyenaはLlama-2 7B、Yi 7B、およびRWKV 14Bなどの最強のトランスフォーマーの代替アーキテクチャを上回っています。

このモデルは、ショートコンテキストのタスクと長いプロンプトの処理において、さまざまなベンチマークで評価されました。Project Gutenbergの書籍によるPerplexityスケーリング実験では、Perplexityが32kで飽和するか、このポイントを超えて減少することから、モデルがより長いプロンプトから情報を吸収する能力を示しています。

StripedHyenaは、アテンションとゲート付き畳み込みを組み合わせたユニークなハイブリッド構造によって効率を実現しています。研究者は、このハイブリッドデザインを最適化するために革新的な接ぎ木技術を使用したと述べており、トレーニング中にアーキテクチャの変更を可能にしました。

研究者は、StripedHyenaの重要な利点の1つは、トレーニング、ファインチューニング、および長いシーケンスの生成など、さまざまなタスクにおける高速性とメモリ効率の向上です。最適化されたTransformerベースラインモデルと比較して、StripedHyenaはFlashAttention v2とカスタムカーネルを使用して、32k、64k、および128kの行でエンドツーエンドトレーニングにおいて30%、50%、および100%以上優れています。

将来、研究者はStripedHyenaモデルでいくつかの領域で大きな進歩を遂げたいと考えています。彼らは、長いコンテキストを処理できるより大きなモデルを作成し、情報理解の限界を拡大したいと考えています。さらに、テキストや画像などのさまざまなソースからデータを処理して理解できるようにすることで、モデルの適応性を高めるためのマルチモーダルサポートを取り入れたいとしています。

最後に、StripedHyenaモデルは、ゲート付き畳み込みなどの追加計算を導入することによって、Transformerモデルに対して改善の余地を持っています。このアプローチは、線形アテンションに触発されたものであり、H3やMultiHyenaなどのアーキテクチャにおいて効果が証明されており、トレーニング中のモデルの品質を向上させ、推論効率に利点を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

メタAI研究者がGenBenchを導入:自然言語処理の汎化を進める革命的なフレームワーク

モデルの一般化能力は、自然言語処理(NLP)の持続的な成功にとって重要です。重要な要素として一般的に受け入れられているも...

機械学習

「言語復興のための生成型AI」

はじめに 言語は単なるコミュニケーション手段ではなく、文化、アイデンティティ、遺産の保管庫でもあります。しかし、多くの...

AIニュース

「AIにおけるアメリカのリーダシップの確かな基盤を築く方法」

Googleが報告書を共有します:AIにおけるアメリカのリーダーシップのための安全な基盤の構築' (Google ga hōkokusho wo kyōyū...

機械学習

「深層学習を用いた深層オブジェクト:ZoeDepthはマルチドメインの深度推定のためのAIモデルです」

画像に子供が大人よりも高くて大きく見える錯覚に出くわしたことはありますか?エームスの部屋の錯視は、台形の形状をした部...

機械学習

2024年のインフラストラクチャー予測

企業はAIの導入の転換点を見ているランサムウェアの脅威が罰則と衝突し、ハイブリッドクラウドアーキテクチャが主流となり、...

AIニュース

「AppleとGoogle、ChatGPTを年間アプリに見落とす」

驚くべき事態の中、テックジャイアントのAppleとGoogleは通常のパターンから逸脱し、それぞれの「年間最優秀アプリ」を選びま...