アップルとEquall AIによる新しいAI研究が、トランスフォーマーアーキテクチャの冗長性を明らかにします:フィードフォワードネットワークの最適化が効率と精度を向上させる方法

アップルとEquall AIによる新しいAI研究:トランスフォーマーアーキテクチャの冗長性の明らかにされた効率と精度の向上方法

最近人気を集めているTransformerデザインは、特に機械翻訳(MT)において、自然言語処理(NLP)の標準手法として広く採用されています。このアーキテクチャは、追加のモデルパラメータを増やすことで、さまざまなNLPタスクでより優れたパフォーマンスを発揮するという印象的なスケーリング能力を示しています。多くの研究や調査によって、この観察結果が裏付けられています。Transformerはスケーラビリティに優れている一方で、これらのモデルを現実世界でより効果的に展開できるようにするための並行した取り組みが進んでいます。これには、レイテンシ、メモリ使用量、およびディスクスペースの問題に対処することが含まれます。

研究者は、部分の削減、パラメータの共有、次元削減など、これらの問題に対処する方法を積極的に研究しています。広く利用されているTransformerアーキテクチャは、いくつかの重要な部分で構成されており、そのうち最も重要な部分はフィードフォワードネットワーク(FFN)とアテンションです。

  1. アテンション – アテンションメカニズムにより、モデルは文中の単語の位置に関係なく、単語間の関係や依存関係を捉えることができます。これは、モデルが現在解析している各単語にとって、入力テキストのどの部分が最も関連性が高いかを判断するための仕組みとして機能します。フレーズ内の単語の文脈とつながりを理解するには、これが必要です。
  1. フィードフォワードネットワーク(FFN):FFNは、各入力トークンを非線形に変換する役割を担っています。各単語の表現に対して特定の数学的操作を行うことで、モデルの各単語の理解力に複雑さと表現力を加えます。

最近の研究では、研究チームがTransformerアーキテクチャ内のFFNの役割を調査しています。彼らは、FFNがモデルの大きなコンポーネントであり、多くのパラメータを消費しているにもかかわらず、高度な冗長性を示していることを発見しました。彼らは、パラメータの数を大幅に削減することができ、精度に大きな影響を与えることなく、これを実現しました。これは、デコーダレイヤからFFNを削除し、代わりにエンコーダレイヤ全体で共有される単一のFFNを使用することによって達成されました。

  1. デコーダレイヤ:標準のTransformerモデルの各エンコーダとデコーダには、個別のFFNがあります。研究者は、デコーダレイヤからFFNを削除しました。
  1. エンコーダレイヤ:各エンコーダレイヤごとに個別のFFNを持つ代わりに、すべてのエンコーダレイヤで共有される単一のFFNを使用しました。

このアプローチに伴う利点を研究者は共有しています。

  1. パラメータ削減:FFNコンポーネントを削除し共有することで、モデルのパラメータ数を劇的に減らしました。
  1. パラメータの削減にもかかわらず、モデルの精度はわずかに減少するだけでした。これは、エンコーダの多数のFFNとデコーダのFFNにはある程度の機能的な冗長性があることを示しています。
  1. スケーリングバック:共有されたFFNの隠れ層の次元を拡大することにより、アーキテクチャを以前のサイズに復元すると同時に、モデルの性能を維持または向上させました。これにより、従来の大規模Transformerモデルと比較して、精度とモデルの処理速度(レイテンシ)にかなりの改善がもたらされました。

まとめると、この研究は、Transformerデザインにおけるフィードフォワードネットワーク、特にデコーダレベルで、モデルのパフォーマンスにほとんど影響を与えずに合理化し共有することができることを示しています。これにより、モデルの計算負荷が軽減されるだけでなく、多様なNLPアプリケーションに対する効果と適用性が向上します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「このように考えて私に答えてください:このAIアプローチは、大規模な言語モデルをガイドするためにアクティブなプロンプティングを使用します」

最近の数ヶ月で、ChatGPTの導入により私たちは大規模な言語モデル (LLM) によく馴染みました。それは私たちの日常生活で欠か...

機械学習

M42がMed42を導入:医療知識へのアクセス拡大のためのオープンアクセスクリニカル大規模言語モデル(LLM)

M42ヘルスは、アブダビ、UAEに拠点を置き、有望な新しいオープンアクセスの臨床大規模言語モデルであるMed42を発表しました。...

データサイエンス

データサイエンスへのゲートの解除:GATE 2024 in DS&AIの究極の学習ガイド

イントロダクション Graduate Aptitude Test in Engineering(GATE)は、インドで行われる大学院入学試験です。この試験は主...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...

機械学習

ジェミニに会ってください:Googleの画期的なマルチモーダルAIモデルが人工知能の未来を再定義する

<img alt=”” src=”https://ai.miximages.com/www.marktechpost.com/wp-content/uploads/2023/12/Screen...

機械学習

「GPTCacheとは:LLMクエリセマンティックキャッシュの開発に役立つライブラリを紹介します」

ChatGPTと大規模言語モデル(LLM)は非常に柔軟性があり、多くのプログラムの作成が可能です。ただし、LLM APIの呼び出しに関...