上海人工知能研究所とMITの研究チームが、階層的に制御された再帰ニューラルネットワーク(RNN)の開発を発表しましたこれは効率的な長期依存性モデリングにおける新たなフロンティアです

『上海AI研究所とMITのチーム、階層的な制御再帰ニューラルネットワーク(RNN)の開発を発表』

上海人工知能研究所とMIT CSAIの研究者によって開発された階層的ゲート付き再帰ニューラルネットワーク(HGRN)技術は、線型RNNに忘却ゲートを組み込むことで、シーケンスモデリングの向上の課題に取り組んでいます。目的は、上位層が長期依存関係を捉える一方、下位層が短期依存関係に焦点を当てることを可能にし、特に非常に長いシーケンスの処理を効果的に行うことです。

この研究では、並列トレーニングと長期依存性の能力によるトランスフォーマーの優位性をシーケンスモデリングにおいて探求しており、線型RNNを使用した効率的なシーケンスモデリングに対する再興にも注目しています。特に、忘却ゲートの重要性を強調しています。長いシーケンスに対して自己注意モジュールの代わりに線型再帰と長い畳み込みの代替手法を考慮し、長い畳込みの課題を明示しています。RNNの長期依存性モデリングとゲートメカニズムの制約も取り上げられています。

シーケンスモデリングは、自然言語処理、時系列分析、コンピュータビジョン、音声処理など、さまざまな領域で重要です。トランスフォーマーの登場前には、RNNが一般的に使用されていましたが、トレーニングが遅く長期依存関係のモデリングには課題がありました。トランスフォーマーは並列トレーニングに優れていますが、長いシーケンスに対して二次時間の複雑性を持っています。

この研究では、効率的なシーケンスモデリングのためのHGRNを提案しています。これは、トークンとチャネルのミキシングモジュールからなるスタックされたレイヤーで構成されています。線型再帰レイヤー内の忘却ゲートは、上位層での長期依存性のモデリングと下位層での局所依存性を可能にします。トークンミキシングモジュールは、状態空間モデルに着想を得た出力ゲートと射影を組み込んでいます。ゲートメカニズムと動的減衰率は勾配消失の問題に対処します。言語モデリング、画像分類、長距離ベンチマークの評価により、HGRNの効率と効果を示しています。

提案されたHGRNモデルは、言語モデリング、画像分類、長距離領域ベンチマークで優れた性能を発揮します。バニラトランスフォーマー、MLPベース、RNNベースの手法よりも優れた性能を示し、オリジナルトランスフォーマーと同等の性能を言語タスクで発揮します。Commonsense ReasoningやSuper GLUEなどのタスクでは、より少ないトークンを使用してトランスフォーマーベースのモデルと同等の性能を発揮します。HGRNはLong Range Arenaベンチマークで長期依存関係の扱いにおいて競争力のある結果を達成します。ImageNet-1K画像分類では、HGRNはTNNやバニラトランスフォーマーなどの従来の手法を上回ります。

結論として、HGRNモデルは言語モデリング、画像分類、長距離ベンチマークなど、さまざまな課題やモダリティで高い効果を発揮しています。忘却ゲートとその値の下限の使用により、長期依存関係の効率的なモデリングが可能です。HGRNは、バニラトランスフォーマー、MLPベース、RNNベースの手法のバリエーションに比べて言語タスクで優れた性能を発揮し、ImageNet-1K画像分類ではTNNやバニラトランスフォーマーなどの手法と比較して優れた性能を示しています。

HGRNモデルの将来の展望には、様々な領域や課題での広範な探索が含まれ、その汎用性と効果を評価します。さまざまなハイパーパラメータとアーキテクチャの変化の影響を調査することで、モデルの設計を最適化します。追加のベンチマークデータセットの評価と最先端のモデルとの比較により、性能をさらに検証します。注意力や他のゲートメカニズムの組み込みなど、長期依存性のキャプチャを向上させるための改善点を探求します。さらに長いシーケンスの拡張性とパラレルスキャン実装の利点も調査します。解釈可能性と説明可能性のさらなる分析により、意思決定の洞察を得て透明性を向上させることを目指します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

大ニュース:Google、ジェミニAIモデルのローンチを延期

予想外の展開となり、Googleは最先端のAIモデル「Gemini」の高い期待を集めるローンチを来年の1月まで延期することを選びまし...

機械学習

「ChatGPTのような大規模言語モデルによる自己説明は感情分析にどれほど効果的か?パフォーマンス、コスト、解釈可能性に迫る深い探求」

言語モデル(GPT-3)は、データで学習したパターンに基づいてテキストを生成するため、中立であり感情を持ちません。トレーニ...

AIニュース

「ビルドの学び方 — Towards AI コミュニティ ニュースレター第2号」

「最近の数日間、OpenAIのドラマを追っていないと見逃しているよ信じられないことが起こったんだ多くの従業員がOpenAIの理事...

機械学習

「RNNにおける誤差逆伝播法と勾配消失問題(パート2)」

このシリーズの第1部では、RNNモデルのバックプロパゲーションを解説し、数式と数値を用いてRNNにおける勾配消失問題を説明し...

機械学習

スマートインフラストラクチャのリスク評価における人間とAI・MLの協力

「人間の専門知識、AIの洞察、およびMLアルゴリズムをシナジー効果を発揮させることで、より安全で適応性のある都市システム...

AI研究

「Google Researchが探求:AIのフィードバックは、大規模な言語モデルの効果的な強化学習において人間の入力を置き換えることができるのか?」

人間のフィードバックは、機械学習モデルを改善し最適化するために不可欠です。近年、人間のフィードバックからの強化学習(R...