「大規模言語モデルは本当にそのすべての層が必要なのか？このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」

Is every layer of large-scale language models truly necessary? This AI research reveals the efficiency of models Pursuit of essential components in large-scale language models.

大規模言語モデル（LLM）の出現により、特にChatGPTの登場により、一般の人々の間で大きな関心が集まっています。これらのモデルは、膨大な量のデータでトレーニングされ、最小限の例でも文脈を学習することができます。今年、Association for Computational Linguistics（ACL）の会議で発表された論文では、文脈学習のためのモデルのスケールの重要性とLLMアーキテクチャの解釈可能性について詳しく調査しています。

この研究では、MetaがGPT-3のオープンレプリカとして開発した66兆パラメータのLLMであるOPT-66Bモデルに焦点を当てています。研究者たちは、LLMのすべてのコンポーネントが文脈学習において重要であるかどうかを判断し、改善されたトレーニングの可能性のある領域についての洞察を提供することを目指して、OPT-66Bを分析しました。

LLMはTransformerアーキテクチャを使用して構築されており、アテンションメカニズムに依存しています。このメカニズムにより、モデルは現在のトークンを生成する際に、どの前のトークンに焦点を当てるべきかを予測することができます。これらのLLMは、複数のアテンションメカニズムを並列に使用するマルチヘッドアテンションを利用しています。OPT-66Bは、72のアテンションヘッドを含む64層から構成されています。マルチヘッドアテンションの出力は、各層ごとに個別のフィードフォワードネットワーク（FFN）を通過します。

OPT-66Bモデルを調査するために、研究者たちは2つの方法を使用しました。まず、各アテンションヘッドとFFNにスコアを割り当て、与えられたタスクに対する重要性を判断しました。これらのスコアを使用して、モデルをプルーニングし、一部のコンポーネントを破棄しました。驚くべきことに、パフォーマンスに影響を与えることなく、モデルのかなりの部分が削除できることがわかりました。これは、OPT-66Bや他の著名なLLMが未学習である可能性があることを示唆しています。

研究者たちは、重要なアテンションヘッドがモデルの中間層に主に存在し、重要なFFNが主に後の層に存在することを発見しました。驚くべきことに、アテンションヘッドの約70％（約157億のパラメータ）を削除しても、14の異なる自然言語処理（NLP）データセット/タスクでのゼロまたはフューショットの文脈学習の能力はほとんど影響を受けませんでした。さらに、タスクとショットにわたる文脈学習に責任がある共通のアテンションヘッドのサブセットを特定し、タスクに対してタスクに依存しない機能性を示しました。さらに、ゼロまたはフューショットの文脈学習にほとんど影響を与えずに、FFNの約20％（約85億のパラメータ）を削除できることも確認しました。

2番目の解析技術では、研究者たちはOPT-66Bのすべてのアテンションヘッドが、文脈学習に関連するタスクに対してタスクに依存しない原始的な操作を実行する能力を評価しました。これらの操作には、プレフィックスの一致とコピーが含まれます。これにより、現在のトークンの前の出現を検索し、次のトークンをコピーすることができます。彼らは、一部のアテンションヘッドが両方のプリミティブに対して重要なスコアを示したことを発見しました。興味深いことに、これらのヘッドは、特定のタスクに対して重要であると特定されたアテンションヘッドとも重なっており、潜在的なコンセプトマッチングなどのより洗練された文脈学習行動に関与している可能性を示しています。

この研究は、文脈学習において重要なアテンションヘッドとFFNのみが存在し、OPT-66Bや他の主要なLLMが未学習であることを示し、最近の研究で固定された事前トレーニングデータの効果に疑問が投げかけられていることに合致しています。結果は、最適なパフォーマンスを実現するために、モデルと事前トレーニングデータの量の両方を同時にスケーリングする必要があることを示唆しています。将来の調査では、指示に従うように設計された新しいLLMバリアントが同様の分析でどのような結果を示すかを探ることができます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「大規模言語モデルは本当にそのすべての層が必要なのか？このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」

Was this article helpful?

ローカルで質問応答（QA）タスク用にLLMを微調整する方法

「Pythonによる（バイオ）イメージ解析：Matplotlibを使用して顕微鏡画像を読み込み、ロードする」

AI研究

「DeepSeek：中国最新の言語モデルの支配」

「Amazon SageMakerデータパラレルライブラリを使用して、トレーニングを高速化します」

スケッチベースの画像対画像変換：GANを使用して抽象的なスケッチを写実的な画像に変換する

少ないデータ注釈 + より多くのAI = 深いアクティブラーニング

エンタープライズAIとは何ですか？

モジラのコモンボイスでの音声言語認識 — Part I.

「大規模言語モデルは本当にそのすべての層が必要なのか？ このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」

Was this article helpful?

「大規模言語モデルは本当にそのすべての層が必要なのか？このAI研究がモデルの効率を明らかにする：大規模言語モデルにおける必須コンポーネントの追求」