「大規模言語モデルは本当にそのすべての層が必要なのか? このAI研究がモデルの効率を明らかにする:大規模言語モデルにおける必須コンポーネントの追求」

Is every layer of large-scale language models truly necessary? This AI research reveals the efficiency of models Pursuit of essential components in large-scale language models.

大規模言語モデル(LLM)の出現により、特にChatGPTの登場により、一般の人々の間で大きな関心が集まっています。これらのモデルは、膨大な量のデータでトレーニングされ、最小限の例でも文脈を学習することができます。今年、Association for Computational Linguistics(ACL)の会議で発表された論文では、文脈学習のためのモデルのスケールの重要性とLLMアーキテクチャの解釈可能性について詳しく調査しています。

この研究では、MetaがGPT-3のオープンレプリカとして開発した66兆パラメータのLLMであるOPT-66Bモデルに焦点を当てています。研究者たちは、LLMのすべてのコンポーネントが文脈学習において重要であるかどうかを判断し、改善されたトレーニングの可能性のある領域についての洞察を提供することを目指して、OPT-66Bを分析しました。

LLMはTransformerアーキテクチャを使用して構築されており、アテンションメカニズムに依存しています。このメカニズムにより、モデルは現在のトークンを生成する際に、どの前のトークンに焦点を当てるべきかを予測することができます。これらのLLMは、複数のアテンションメカニズムを並列に使用するマルチヘッドアテンションを利用しています。OPT-66Bは、72のアテンションヘッドを含む64層から構成されています。マルチヘッドアテンションの出力は、各層ごとに個別のフィードフォワードネットワーク(FFN)を通過します。

OPT-66Bモデルを調査するために、研究者たちは2つの方法を使用しました。まず、各アテンションヘッドとFFNにスコアを割り当て、与えられたタスクに対する重要性を判断しました。これらのスコアを使用して、モデルをプルーニングし、一部のコンポーネントを破棄しました。驚くべきことに、パフォーマンスに影響を与えることなく、モデルのかなりの部分が削除できることがわかりました。これは、OPT-66Bや他の著名なLLMが未学習である可能性があることを示唆しています。

研究者たちは、重要なアテンションヘッドがモデルの中間層に主に存在し、重要なFFNが主に後の層に存在することを発見しました。驚くべきことに、アテンションヘッドの約70%(約157億のパラメータ)を削除しても、14の異なる自然言語処理(NLP)データセット/タスクでのゼロまたはフューショットの文脈学習の能力はほとんど影響を受けませんでした。さらに、タスクとショットにわたる文脈学習に責任がある共通のアテンションヘッドのサブセットを特定し、タスクに対してタスクに依存しない機能性を示しました。さらに、ゼロまたはフューショットの文脈学習にほとんど影響を与えずに、FFNの約20%(約85億のパラメータ)を削除できることも確認しました。

2番目の解析技術では、研究者たちはOPT-66Bのすべてのアテンションヘッドが、文脈学習に関連するタスクに対してタスクに依存しない原始的な操作を実行する能力を評価しました。これらの操作には、プレフィックスの一致とコピーが含まれます。これにより、現在のトークンの前の出現を検索し、次のトークンをコピーすることができます。彼らは、一部のアテンションヘッドが両方のプリミティブに対して重要なスコアを示したことを発見しました。興味深いことに、これらのヘッドは、特定のタスクに対して重要であると特定されたアテンションヘッドとも重なっており、潜在的なコンセプトマッチングなどのより洗練された文脈学習行動に関与している可能性を示しています。

この研究は、文脈学習において重要なアテンションヘッドとFFNのみが存在し、OPT-66Bや他の主要なLLMが未学習であることを示し、最近の研究で固定された事前トレーニングデータの効果に疑問が投げかけられていることに合致しています。結果は、最適なパフォーマンスを実現するために、モデルと事前トレーニングデータの量の両方を同時にスケーリングする必要があることを示唆しています。将来の調査では、指示に従うように設計された新しいLLMバリアントが同様の分析でどのような結果を示すかを探ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

大規模画像モデルのための最新のCNNカーネル

「OpenAIのChatGPTの驚異的な成功が大型言語モデルのブームを引き起こしたため、多くの人々が大型画像モデルにおける次のブレ...

機械学習

Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです

OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャ...

機械学習

AIの力:機械学習アプリケーションの効率的な展開とスケーラビリティのためのDockerの活用

Dockerの力を活用する:機械学習モデルの展開ソリューションを合理化し、スケーラビリティを確保し、CI/CDプロセスを簡素化する

AI研究

「MITのこのAI研究は、光を基にした機械学習システムがより強力で効率的な大規模言語モデルを生み出す方法を示しています」

ディープニューラルネットワーク(DNN)は、コンピューターにとってスーパーブレインのような存在です。彼らは多くの情報から...

機械学習

パロアルトネットワークスは、Cortex XSIAM 2.0プラットフォームを導入します:ユニークなBring-Your-Own-Machine-Learning(BYOML)フレームワークを特徴としています

“`html サイバーセキュリティにおいて、組織はセキュリティインテリジェンスと自動化の効率的な管理に直面しています。...

機械学習

このAI論文は、「テキストに基づくローカライズされた3Dオブジェクトの編集のための事前学習済みNeRFと編集可能なNeRFを組み合わせたBlending-NeRF」を提案しています

3Dイメージ合成および関連する技術は、絵画、製品デザイン、アニメーションなど、様々な産業に大きな影響を与えています。Neu...