アップルとEquall AIによる新しいAI研究が、トランスフォーマーアーキテクチャの冗長性を明らかにします:フィードフォワードネットワークの最適化が効率と精度を向上させる方法

アップルとEquall AIによる新しいAI研究:トランスフォーマーアーキテクチャの冗長性の明らかにされた効率と精度の向上方法

最近人気を集めているTransformerデザインは、特に機械翻訳(MT)において、自然言語処理(NLP)の標準手法として広く採用されています。このアーキテクチャは、追加のモデルパラメータを増やすことで、さまざまなNLPタスクでより優れたパフォーマンスを発揮するという印象的なスケーリング能力を示しています。多くの研究や調査によって、この観察結果が裏付けられています。Transformerはスケーラビリティに優れている一方で、これらのモデルを現実世界でより効果的に展開できるようにするための並行した取り組みが進んでいます。これには、レイテンシ、メモリ使用量、およびディスクスペースの問題に対処することが含まれます。

研究者は、部分の削減、パラメータの共有、次元削減など、これらの問題に対処する方法を積極的に研究しています。広く利用されているTransformerアーキテクチャは、いくつかの重要な部分で構成されており、そのうち最も重要な部分はフィードフォワードネットワーク(FFN)とアテンションです。

  1. アテンション – アテンションメカニズムにより、モデルは文中の単語の位置に関係なく、単語間の関係や依存関係を捉えることができます。これは、モデルが現在解析している各単語にとって、入力テキストのどの部分が最も関連性が高いかを判断するための仕組みとして機能します。フレーズ内の単語の文脈とつながりを理解するには、これが必要です。
  1. フィードフォワードネットワーク(FFN):FFNは、各入力トークンを非線形に変換する役割を担っています。各単語の表現に対して特定の数学的操作を行うことで、モデルの各単語の理解力に複雑さと表現力を加えます。

最近の研究では、研究チームがTransformerアーキテクチャ内のFFNの役割を調査しています。彼らは、FFNがモデルの大きなコンポーネントであり、多くのパラメータを消費しているにもかかわらず、高度な冗長性を示していることを発見しました。彼らは、パラメータの数を大幅に削減することができ、精度に大きな影響を与えることなく、これを実現しました。これは、デコーダレイヤからFFNを削除し、代わりにエンコーダレイヤ全体で共有される単一のFFNを使用することによって達成されました。

  1. デコーダレイヤ:標準のTransformerモデルの各エンコーダとデコーダには、個別のFFNがあります。研究者は、デコーダレイヤからFFNを削除しました。
  1. エンコーダレイヤ:各エンコーダレイヤごとに個別のFFNを持つ代わりに、すべてのエンコーダレイヤで共有される単一のFFNを使用しました。

このアプローチに伴う利点を研究者は共有しています。

  1. パラメータ削減:FFNコンポーネントを削除し共有することで、モデルのパラメータ数を劇的に減らしました。
  1. パラメータの削減にもかかわらず、モデルの精度はわずかに減少するだけでした。これは、エンコーダの多数のFFNとデコーダのFFNにはある程度の機能的な冗長性があることを示しています。
  1. スケーリングバック:共有されたFFNの隠れ層の次元を拡大することにより、アーキテクチャを以前のサイズに復元すると同時に、モデルの性能を維持または向上させました。これにより、従来の大規模Transformerモデルと比較して、精度とモデルの処理速度(レイテンシ)にかなりの改善がもたらされました。

まとめると、この研究は、Transformerデザインにおけるフィードフォワードネットワーク、特にデコーダレベルで、モデルのパフォーマンスにほとんど影響を与えずに合理化し共有することができることを示しています。これにより、モデルの計算負荷が軽減されるだけでなく、多様なNLPアプリケーションに対する効果と適用性が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

デジタルアートの革新:ソウル国立大学の研究者が、強化学習を用いたコラージュ作成における新しいアプローチを紹介

“`html 芸術的なコラージュ作成は、人々の芸術的な才能と深く結びついている分野であり、人工知能(AI)に興味を引かせ...

AIニュース

AIがオンエア中:世界初のRJボット、アシュリーに会おう

オレゴン州ポートランドに拠点を置く人気ラジオ局、Live 95.5は、Futuri MediaのRadioGPTテクノロジーによって動かされる世界...

AIニュース

「2023年の最高のAIスプレッドシートツール」

他の情報源と組み合わせると、マーケティングデータプラットフォームを含めて、Excelは迅速に貴重な洞察を提供するかもしれま...

AI研究

ミシガン大学の研究者は、AIの心理理論において新領域を開拓し、分類法と厳密な評価プロトコルを明らかにしました

ミシガン大学の研究者チームは、大規模言語モデル(LLM)のマインド理論(ToM)能力を評価するための新しい基準と評価プロト...

AI研究

スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています

我々は皆、ChatGPTやBardなどの驚異的な生成モデル、およびそれらの基盤技術であるGPT3やGPT4などの開発競争がAI界を大きく揺...