「大規模言語モデルの謎解き:インフルエンス関数とそのスケーラビリティの深い探求」

Exploring the mysteries of large-scale language models deep investigation into influence functions and their scalability

大規模な言語モデル(LLM)は、様々な現実世界の分野で開発を加速させ、文脈に基づいた学習や思考の連鎖による推論など、予期せぬスキルを示しています。しかし、この開発にはいくつかの危険があります。社会的な偏見、データの漏洩、ディスインフォメーションなどの短期的な懸念から、強力なAIシステムによる長期的な危険までです。スケールと微調整の程度に応じて、LLMは心理的および行動的な側面で変化することも示されています。これらの危険を回避するためには、モデルの動作に対する洞察が必要です。

LLMは、情報が真実でないことを知っている場合に、トレーニングセットからのパッセージを単に繰り返したり結合したりしているのでしょうか?または、包括的なグローバルモデルを構築しながら、知識の蓄積の中で新しいつながりを作り出しているのでしょうか?これらの問題への異なる回答は、AIの能力の発展の予測や人間の好みとの統合の戦略に重要な影響を与えます。モデルの回路を詳細に逆解析することは、それに対する洞察を得るためのボトムアップの手法の一つです。

メカニズムの解釈可能性においては、誘導ヘッドや特徴の解釈不可能な重ね合わせを学習する可能性のある他のメカニズムが発見されています。トランスフォーマーを介してホップフィールドネットワーク、高速ウェイト、スパース回帰、勾配降下、オートマトン、またはシンプルなコンピュータプログラムを実装するための手法が提案されています。これらの評価は有益な情報を提供しますが、通常は小さな、単純化されたシステムで行われます。私たちがLLMについて興味を持つ高レベルな現象にこれらを結びつけるためには、数十億のパラメータを持つ複雑な計算の逆解析が必要となる可能性があります。

代わりに、モデルの入出力関係から始め、ズームインすることもできます。これの利点は、興味のある現象を直接探索するために大きなモデルを使用できることです。残念ながら、モデルのサンプルと確率に基づいて強い判断を下すことは難しいです。なぜなら、任意の結果は、単純な記憶からオリジナルの問題解決まで、幅広い学習プロセスと一致するからです。彼らは基本的な可能性とサンプルを超えて、トップダウンの手法を進めます。彼らは反事実を定量化することを目指しています。トレーニングセットに特定のシーケンスが含まれていた場合、モデルの振る舞いはどのようになるでしょうか?カウンターファクトリーの懸念に対しては、ディープラーニングに組み込まれた伝統的な統計的手法である影響関数が対応します。影響関数は、このカウンターファクトリーの小さな表現に近づくように特に設計されています。トロント大学とベクトル研究所の研究者は、影響関数を使用して大規模な言語モデルの一般化を分析しています。

彼らは、これが彼らが理解したいほぼすべての高レベルな行動にとって重要な証拠源であると考えています。影響を与えるトレーニングシーケンスを特定することで、出力がどのように生成されたのかについての異なる説明を区別し、トレーニング例から一般化される構造の種類に光を当てることができます。影響関数は、いくつかの小規模なニューラルネットワークに洞察を提供してきましたが、大規模なモデルにスケーリングすることは困難です。逆ヘッシアン-ベクトル積(IHVP)を計算する必要性は、その一つの計算ボトルネックです。これには、反復的な線形システムソルバーを数千回実行する必要があります。考慮されるすべてのトレーニングインスタンスの勾配を計算する必要があるため、通常は各影響クエリごとに独立に行われます。これも別のボトルネックです。これまでに、3億のパラメータを持つビジョントランスフォーマーが影響関数が適用された最大のモデルでした。彼らは、トレーニング勾配の計算とIHVPの計算という2つの以前に述べた計算ボトルネックに対して、最先端の技術に基づいた戦略を提供しています。

彼らは以下の主な結論をいくつか挙げています:

1. EK-FACは、影響推定の精度に関して、より確立されたLiSSA法と競争力を持っていますが、はるかに高速です。

2. 影響分布には強いテールがあり、分布のテールは一般的にべき乗則に従います。少数のシーケンスに焦点を当てる代わりに、効果は多くのシーケンス全体に分散しており、一般的なモデルの振る舞いは、わずかな数のシーケンスを覚えることの直接的な結果ではないことを示唆しています。

3. より大規模なモデルは、より高い抽象度で一貫して一般化します。役割演技、プログラミング、数学的推論、言語間の一般化などがこれに当たります。

4. 影響は通常、ネットワークのさまざまな階層に均等に広がっています。ただし、複数のレベルでは異なる一般化パターンが見られ、中間層はより抽象的なパターンに集中し、上位層と下位層はトークンに関連するものとより関連しています。

5. 効果関数は、全体的に高度な一般化パターンが見られるにもかかわらず、単語の順序に対して予期しない感度を示しています。特に、トレーニングシーケンスは、プロンプトに関連する単語が補完に関連する単語の前に来る場合にのみ意味のある影響を与えます。

6. トレーニングセットでの同様の行動の例や説明は、役割演じる行動に最も大きな影響を与えました。これにより、複雑な計画ではなく模倣が行動の原因であることが示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

CMUの研究者がMultiModal Graph Learning(MMGL)を導入「複数の多様な隣接情報から関係構造を持つ情報を抽出するための新たなAIフレームワーク」としています

多モーダルグラフ学習は、機械学習、グラフ理論、およびデータフュージョンの概念を組み合わせた多様なデータソースとその相...

データサイエンス

「量子もつれ測定の革命:限られたデータで深層学習が従来の方法を上回る方法」

系統の量子もつれの程度は、系統のランダム性や量子もつれの係数など、さまざまな要素に依存します。この系統の特性は、機械...

機械学習

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を...

AIニュース

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

このチュートリアルでは、Amazon Bedrockを使用してGoで画像生成ソリューションを構築し、AWS CDKを使用して展開する方法を学...

AI研究

トヨタのAIにより、電気自動車の設計がより迅速になりました

トヨタ研究所(TRI)は、車両設計の世界で発表を行いました。彼らは、画期的な生成型人工知能(AI)技術を発表し、電気自動車...

AI研究

『広範な展望:NVIDIAの基調講演がAIの更なる進歩の道を指し示す』

ハードウェア性能の劇的な向上により、生成型AIが生まれ、将来の高速化のアイデアの豊富なパイプラインが構築され、機械学習...