トゥギャザーアイは、ShortおよびLongコンテキストの評価で最高のオープンソーストランスフォーマーに対抗する、StripedHyena-7Bという代替人工知能モデルを紹介します

「StripedHyena-7B」という代替人工知能モデルを紹介します:トゥギャザーアイを最高のオープンソーストランスフォーマーに対抗するShortおよびLongコンテキストの評価で

AIと共に、シーケンスモデリングアーキテクチャへの大きな貢献を果たし、StripedHyenaモデルを導入しました。従来のトランスフォーマーに代わる選択肢を提供することで、計算効率とパフォーマンスを向上させることで、このフィールドを革新しました。

このリリースには、ベースモデルのStripedHyena-Hessian-7B(SH 7B)とチャットモデルのStripedHyena-Nous-7B(SH-N 7B)が含まれています。StripedHyenaは、昨年作成されたH3、Hyena、HyenaDNA、およびMonarch Mixerといった効果的なシーケンスモデリングアーキテクチャの学習からの重要な知見に基づいています。

研究者は、このモデルが長いシーケンスをトレーニング、ファインチューニング、および生成する際に、高速かつメモリ効率が向上していることを強調しています。StripedHyenaは、ゲート付き畳み込みとアテンションを組み合わせたハイエナオペレータと呼ばれるものによって、ハイブリッド技術を使用しています。また、このモデルは、強力なトランスフォーマーベースモデルと競合する初めての代替アーキテクチャです。OpenLLMリーダーボードのタスクを含むショートコンテキストのタスクでは、StripedHyenaはLlama-2 7B、Yi 7B、およびRWKV 14Bなどの最強のトランスフォーマーの代替アーキテクチャを上回っています。

このモデルは、ショートコンテキストのタスクと長いプロンプトの処理において、さまざまなベンチマークで評価されました。Project Gutenbergの書籍によるPerplexityスケーリング実験では、Perplexityが32kで飽和するか、このポイントを超えて減少することから、モデルがより長いプロンプトから情報を吸収する能力を示しています。

StripedHyenaは、アテンションとゲート付き畳み込みを組み合わせたユニークなハイブリッド構造によって効率を実現しています。研究者は、このハイブリッドデザインを最適化するために革新的な接ぎ木技術を使用したと述べており、トレーニング中にアーキテクチャの変更を可能にしました。

研究者は、StripedHyenaの重要な利点の1つは、トレーニング、ファインチューニング、および長いシーケンスの生成など、さまざまなタスクにおける高速性とメモリ効率の向上です。最適化されたTransformerベースラインモデルと比較して、StripedHyenaはFlashAttention v2とカスタムカーネルを使用して、32k、64k、および128kの行でエンドツーエンドトレーニングにおいて30%、50%、および100%以上優れています。

将来、研究者はStripedHyenaモデルでいくつかの領域で大きな進歩を遂げたいと考えています。彼らは、長いコンテキストを処理できるより大きなモデルを作成し、情報理解の限界を拡大したいと考えています。さらに、テキストや画像などのさまざまなソースからデータを処理して理解できるようにすることで、モデルの適応性を高めるためのマルチモーダルサポートを取り入れたいとしています。

最後に、StripedHyenaモデルは、ゲート付き畳み込みなどの追加計算を導入することによって、Transformerモデルに対して改善の余地を持っています。このアプローチは、線形アテンションに触発されたものであり、H3やMultiHyenaなどのアーキテクチャにおいて効果が証明されており、トレーニング中のモデルの品質を向上させ、推論効率に利点を提供します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する 効果的なプロジェクト管理のための必須ツール」

「機械学習またはデータサイエンスのプロジェクトは非常に大規模であり、多くの種類のファイルや多様なアーキテクチャを含ん...

AI研究

「産業界が音声AIを活用して消費者の期待に応えている方法」

急速な技術の進歩のおかげで、消費者は前例のないほどの便利さと効率性に慣れてきました。 スマートフォンを使えば、商品を検...

機械学習

新たなディープ強化学習(DRL)フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95%をブロックすることができます

サイバーセキュリティの防御者は、技術の発展とシステムの複雑さのレベルが上昇するにつれて、自分たちの技術と戦術を動的に...

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

データサイエンス

AI、デジタルツインが次世代の気候研究イノベーションを解き放つ

AIと高速計算は、気候研究者が気候研究のブレークスルーを達成するために必要な奇跡を実現するのに役立つだろう、とNVIDIAの...

AIニュース

「OpenAIのAI検出ツールは、AIによって生成されたコンテンツの74%を検出できない」

OpenAIは、画期的な生成型AIチャットボットChatGPTの製造元であり、最近、AI分類ツールの提供を中止したことで話題となりまし...