トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

「StripedHyena-7B」という代替人工知能モデルを紹介します:トゥギャザーアイを最高のオープンソーストランスフォーマーに対抗するShortおよびLongコンテキストの評価で

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランスフォーマーに代わる選択肢を提供することで、計算効率とパフォーマンスを向上させることで、このフィールドを革新しました。

このリリースには、ベースモデルのStripedHyena-Hessian-7B(SH 7B)とチャットモデルのStripedHyena-Nous-7B(SH-N 7B)が含まれています。StripedHyenaは、昨年作成されたH3、Hyena、HyenaDNA、およびMonarch Mixerといった効果的なシーケンスモデリングアーキテクチャの学習からの重要な知見に基づいています。

研究者は、このモデルが長いシーケンスをトレーニング、ファインチューニング、および生成する際に、高速かつメモリ効率が向上していることを強調しています。StripedHyenaは、ゲート付き畳み込みとアテンションを組み合わせたハイエナオペレータと呼ばれるものによって、ハイブリッド技術を使用しています。また、このモデルは、強力なトランスフォーマーベースモデルと競合する初めての代替アーキテクチャです。OpenLLMリーダーボードのタスクを含むショートコンテキストのタスクでは、StripedHyenaはLlama-2 7B、Yi 7B、およびRWKV 14Bなどの最強のトランスフォーマーの代替アーキテクチャを上回っています。

このモデルは、ショートコンテキストのタスクと長いプロンプトの処理において、さまざまなベンチマークで評価されました。Project Gutenbergの書籍によるPerplexityスケーリング実験では、Perplexityが32kで飽和するか、このポイントを超えて減少することから、モデルがより長いプロンプトから情報を吸収する能力を示しています。

StripedHyenaは、アテンションとゲート付き畳み込みを組み合わせたユニークなハイブリッド構造によって効率を実現しています。研究者は、このハイブリッドデザインを最適化するために革新的な接ぎ木技術を使用したと述べており、トレーニング中にアーキテクチャの変更を可能にしました。

研究者は、StripedHyenaの重要な利点の1つは、トレーニング、ファインチューニング、および長いシーケンスの生成など、さまざまなタスクにおける高速性とメモリ効率の向上です。最適化されたTransformerベースラインモデルと比較して、StripedHyenaはFlashAttention v2とカスタムカーネルを使用して、32k、64k、および128kの行でエンドツーエンドトレーニングにおいて30%、50%、および100%以上優れています。

将来、研究者はStripedHyenaモデルでいくつかの領域で大きな進歩を遂げたいと考えています。彼らは、長いコンテキストを処理できるより大きなモデルを作成し、情報理解の限界を拡大したいと考えています。さらに、テキストや画像などのさまざまなソースからデータを処理して理解できるようにすることで、モデルの適応性を高めるためのマルチモーダルサポートを取り入れたいとしています。

最後に、StripedHyenaモデルは、ゲート付き畳み込みなどの追加計算を導入することによって、Transformerモデルに対して改善の余地を持っています。このアプローチは、線形アテンションに触発されたものであり、H3やMultiHyenaなどのアーキテクチャにおいて効果が証明されており、トレーニング中のモデルの品質を向上させ、推論効率に利点を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジオのHaptikがビジネス向けのAIツールを立ち上げました

インドの人工知能スタートアップ、Haptikは、Reliance Jio Infocommの一部であり、ビジネスクライアントが仮想アシスタントと...

AIテクノロジー

「FinTech API管理におけるAIの力を解き放つ:製品マネージャーのための包括的なガイド」

この包括的なガイドでは、AIが金融技術のAPI管理に果たす変革的な役割を探求し、各セクションごとに実世界の例を提供していま...

データサイエンス

「データ管理におけるメタデータの役割」

「メタデータは現代のデータ管理において中心的な役割を果たし、統合、品質、セキュリティに不可欠であり、デジタルトランス...

機械学習

Google DeepMind(グーグルディープマインド)が「GNoME(グノーム)」を発表:新素材の安定性を予測し、探索の速度と効率を劇的に向上させる新しいディープラーニングツール

無機結晶は、コンピュータチップ、バッテリー、太陽電池など、現代の多くの技術にとって不可欠です。安定した結晶は、細心の...

機械学習

「人工知能の世界を探索する:初心者ガイド」

この記事では、人工知能の新興で興奮するような分野について、さまざまなシステムの種類、リスク、利点について説明します

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...