このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する

『大規模言語モデルの不正のメカニズムを解明するAI研究:プロンプトエンジニアリングとニューラルネットワーク分析の深層探求』

大規模な言語モデル(LLM)の理解とその正直な行動の促進は、これらのモデルが成長し、社会に広く受け入れられるようになったため、ますます重要となっています。研究者らは、スケーラブルなディスインフォメーション、操作、詐欺、選挙の妨害、またはコントロールの喪失のリスクなど、モデルが欺瞞的になる可能性から新たなリスクが生じると指摘しています。彼らはこの欺瞞を「真実以外の特定の結果を追求するための虚偽の信念の系統的な誘導」と定義しています。研究によると、これらのモデルの活性化には必要な情報があるにもかかわらず、正しい結果を出すためにはミスアライメント以上のものが必要かもしれません。

以前の研究では、真実と誠実さを区別し、前者は誤った主張を避ける一方、後者は信じていない主張を避けると述べています。この区別は理解を助けるのに役立ちます。したがって、モデルが誤解を招く主張を生成する場合、その原因はスキルの欠如ではなく、不誠実さによるミスアライメントによるものかもしれません。その後、いくつかの研究では、内部モデル表現の抽出の改善を図るため、モデルに積極的な概念を考慮させるようにするためのブラックボックス技術の提案が行われています。

さらに、モデルは文脈に従った環境で「重要な」中間層を持っており、これを超えて文脈に従った真実または誤った応答の表現は分岐する傾向があります。これを「過剰に考える」という現象として知られています。先行研究に刺激を受けて、研究者たちは不正確な文脈学習から故意の不誠実さに焦点を広げ、モデルにウソをつくように明示的に指示を与えることでこの文脈での不誠実さに責任があるモデルのどの層と注意ヘッドがあるのかを特定して理解しようとしています。

以下に彼らの貢献を示します:

1. 研究チームは、真偽の質問でかなり下回る精度に基づいて、LLaMA-2-70b-chatが嘘をつくように訓練できることを示しています。研究チームによれば、これは非常に微妙で、注意深く迅速に設計する必要があります。

2. activation patchingおよびprobingを使用して、研究チームは不正行動に関連する5つのモデル層に独立した証拠を見つけました。

3. 0.9%の全ヘッドに対して誘因介入が効果的に行われ、研究チームが欺瞞的なモデルに真実を返すように強制しました。これらの処理は、複数のデータセットの分割や提示に対して弾力的です。

要するに、研究チームは、真実を言うかどうかについてLLMに指示を与えるという単純な嘘の事例を考察しました。その結果、巨大なモデルでも不正行動が表示され、正直に回答するように求められた場合には正しい回答が生成され、ウソをつくように追い込まれると誤った回答が生成されることがわかりました。これらの調査結果は、活性化探索がプロンプトでの分布外にも一般化できる可能性があることを示唆する以前の研究に基づいています。しかし、研究チームは、これがモデルが「真」トークンよりも早く「偽」トークンを出力する傾向にあるといった問題により、プロンプトのエンジニアリングに長い時間が必要になる場合があることも発見しました。

研究チームは、接頭辞の挿入により、一貫して嘘を引き起こすことができました。その後、チームは不誠実なモデルと誠実なモデルの活性化を比較し、嘘をつくために関与する層と注意ヘッドを特定しました。研究チームは、この嘘の行動を調査するために線形プローブを使用することで、初めから中間層が誠実なプロンプトとウソつきプロンプトに対して類似のモデル表現を示し、それから急激に反対向きに分岐することを発見しました。これは、文献の一部が求めるように、以前の層が文脈非依存の真実の表現を持つべきであることを示しているかもしれません。また、activation patchingは、特定の層とヘッドの動作についてさらに理解するために研究チームが使用した別のツールです。研究者たちは、局所的な介入が正直なプロンプトおよびウソつきモデル間のミスマッチを完全に解決できることを発見しました。

重要なのは、わずか46の注意ヘッドに対するこれらの介入が、データセットやプロンプトに対して強固な耐性を示していることです。研究チームは、モデルがデフォルトで誠実なモデルの正確性と誠実さを主に調査してきた以前の研究とは対照的に、アクセス可能なデータセットを使用し、明示的にモデルに嘘をつくように指示することで嘘を重点的に研究しています。この文脈によって、研究者たちは不正な行動を促進する微妙な点や大規模モデルがどのように不誠実な行動に関与しているかについて多くの知識を得ることができました。研究チームは、LLMの倫理的かつ安全な応用を保証するために、この文脈でのさらなる研究がLLMの嘘つきを防止する新しいアプローチにつながると期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「GPTの内部- I:テキスト生成の理解」

「さまざまなドメインの同僚と定期的に関わりながら、データサイエンスの背景をほとんど持たない人々に機械学習の概念を伝え...

機械学習

このAI論文は、高度な潜在的一致モデルとLoRA蒸留によってテキストから画像を生成するタスクを革新するLCM-LoRAを紹介しています

潜在拡散モデルは機械学習における生成モデルであり、特に確率モデリングで使用されます。これらのモデルはデータセットの潜...

機械学習

「教師付き学習の実践:線形回帰」

「もしScikit-learnを使用した線形回帰の実装について、詳細で初心者にもやさしいチュートリアルを通じて実践的な経験を求め...

AI研究

ワビとトロント大学の研究者が、オートラベリングのためのオブジェクト軌跡を洗練するための効率的なトランスフォーマベースのAIモデル、LabelFormerを紹介しました

現代の自動運転システムでは、交通参加者を認識するためのオブジェクト検出器を訓練するために、広範な手動注釈付きデータセ...

AIニュース

「マイクロソフト、Windows上でのCortanaの終了を発表」

マイクロソフトは重要な動きとして、WindowsでのCortanaのサポート終了を宣言しました。この発表は、Windows Centralによって...

データサイエンス

「マシンの学習を忘れることを学ぶ」

現代のテクノロジーの世界では、機械学習について聞かない人を見つけるのは困難でしょう過去10年間、この研究分野はとてもト...