上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです

『上海AI研究所とMITのチーム、階層的な制御再帰ニューラルネットワーク(RNN)の開発を発表』

上海人工知能研究所とMIT CSAIの研究者によって開発された階層的ゲート付き再帰ニューラルネットワーク(HGRN)技術は、線型RNNに忘却ゲートを組み込むことで、シーケンスモデリングの向上の課題に取り組んでいます。目的は、上位層が長期依存関係を捉える一方、下位層が短期依存関係に焦点を当てることを可能にし、特に非常に長いシーケンスの処理を効果的に行うことです。

この研究では、並列トレーニングと長期依存性の能力によるトランスフォーマーの優位性をシーケンスモデリングにおいて探求しており、線型RNNを使用した効率的なシーケンスモデリングに対する再興にも注目しています。特に、忘却ゲートの重要性を強調しています。長いシーケンスに対して自己注意モジュールの代わりに線型再帰と長い畳み込みの代替手法を考慮し、長い畳込みの課題を明示しています。RNNの長期依存性モデリングとゲートメカニズムの制約も取り上げられています。

シーケンスモデリングは、自然言語処理、時系列分析、コンピュータビジョン、音声処理など、さまざまな領域で重要です。トランスフォーマーの登場前には、RNNが一般的に使用されていましたが、トレーニングが遅く長期依存関係のモデリングには課題がありました。トランスフォーマーは並列トレーニングに優れていますが、長いシーケンスに対して二次時間の複雑性を持っています。

この研究では、効率的なシーケンスモデリングのためのHGRNを提案しています。これは、トークンとチャネルのミキシングモジュールからなるスタックされたレイヤーで構成されています。線型再帰レイヤー内の忘却ゲートは、上位層での長期依存性のモデリングと下位層での局所依存性を可能にします。トークンミキシングモジュールは、状態空間モデルに着想を得た出力ゲートと射影を組み込んでいます。ゲートメカニズムと動的減衰率は勾配消失の問題に対処します。言語モデリング、画像分類、長距離ベンチマークの評価により、HGRNの効率と効果を示しています。

提案されたHGRNモデルは、言語モデリング、画像分類、長距離領域ベンチマークで優れた性能を発揮します。バニラトランスフォーマー、MLPベース、RNNベースの手法よりも優れた性能を示し、オリジナルトランスフォーマーと同等の性能を言語タスクで発揮します。Commonsense ReasoningやSuper GLUEなどのタスクでは、より少ないトークンを使用してトランスフォーマーベースのモデルと同等の性能を発揮します。HGRNはLong Range Arenaベンチマークで長期依存関係の扱いにおいて競争力のある結果を達成します。ImageNet-1K画像分類では、HGRNはTNNやバニラトランスフォーマーなどの従来の手法を上回ります。

結論として、HGRNモデルは言語モデリング、画像分類、長距離ベンチマークなど、さまざまな課題やモダリティで高い効果を発揮しています。忘却ゲートとその値の下限の使用により、長期依存関係の効率的なモデリングが可能です。HGRNは、バニラトランスフォーマー、MLPベース、RNNベースの手法のバリエーションに比べて言語タスクで優れた性能を発揮し、ImageNet-1K画像分類ではTNNやバニラトランスフォーマーなどの手法と比較して優れた性能を示しています。

HGRNモデルの将来の展望には、様々な領域や課題での広範な探索が含まれ、その汎用性と効果を評価します。さまざまなハイパーパラメータとアーキテクチャの変化の影響を調査することで、モデルの設計を最適化します。追加のベンチマークデータセットの評価と最先端のモデルとの比較により、性能をさらに検証します。注意力や他のゲートメカニズムの組み込みなど、長期依存性のキャプチャを向上させるための改善点を探求します。さらに長いシーケンスの拡張性とパラレルスキャン実装の利点も調査します。解釈可能性と説明可能性のさらなる分析により、意思決定の洞察を得て透明性を向上させることを目指します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

AIシステムは、構造設計のターゲットを満たす新しいタンパク質を生成することができます

これらの調整可能なタンパク質は、強靭性や柔軟性など、特定の機械的特性を持つ新しい材料を作成するために使用することがで...

AIニュース

「OpenAIがGPT-4の力を持つChatGPT Enterpriseを発表」

AI研究の先駆的な組織であるOpenAIは、人工知能の世界における興奮をもたらす新たな章を紹介しました – ChatGPT Enterp...

AI研究

UCバークレーの研究者たちは、Gorillaという名前の、GPT-4を上回るAPIコールの記述において、Finetuned LLaMAベースのモデルを紹介しました

人工知能の分野における最近の大きな進歩は、大規模言語モデル(LLM)の導入です。これらのモデルは、自然言語処理(NLP)や...

データサイエンス

「グーグルのAI研究によると、グラフデータのエンコーディングが言語モデルのパフォーマンスを複雑なタスクに向上させることが明らかになりました」

近年、大型言語モデル(LLM)の研究と応用は著しく進歩しています。これらの生成モデルは人工知能コミュニティを魅了し、様々...

データサイエンス

指数平滑移動平均の直感的な説明

時間系列分析において、前の値を考慮に入れて、配列の傾向方向を理解する必要がしばしばあります配列内の次の値の近似を行う...