このAI研究は、大規模言語モデルにおける不誠実さのメカニズムを明らかにする:プロンプトエンジニアリングとニューラルネットワーク分析に深く没入する

『大規模言語モデルの不正のメカニズムを解明するAI研究:プロンプトエンジニアリングとニューラルネットワーク分析の深層探求』

大規模な言語モデル(LLM)の理解とその正直な行動の促進は、これらのモデルが成長し、社会に広く受け入れられるようになったため、ますます重要となっています。研究者らは、スケーラブルなディスインフォメーション、操作、詐欺、選挙の妨害、またはコントロールの喪失のリスクなど、モデルが欺瞞的になる可能性から新たなリスクが生じると指摘しています。彼らはこの欺瞞を「真実以外の特定の結果を追求するための虚偽の信念の系統的な誘導」と定義しています。研究によると、これらのモデルの活性化には必要な情報があるにもかかわらず、正しい結果を出すためにはミスアライメント以上のものが必要かもしれません。

以前の研究では、真実と誠実さを区別し、前者は誤った主張を避ける一方、後者は信じていない主張を避けると述べています。この区別は理解を助けるのに役立ちます。したがって、モデルが誤解を招く主張を生成する場合、その原因はスキルの欠如ではなく、不誠実さによるミスアライメントによるものかもしれません。その後、いくつかの研究では、内部モデル表現の抽出の改善を図るため、モデルに積極的な概念を考慮させるようにするためのブラックボックス技術の提案が行われています。

さらに、モデルは文脈に従った環境で「重要な」中間層を持っており、これを超えて文脈に従った真実または誤った応答の表現は分岐する傾向があります。これを「過剰に考える」という現象として知られています。先行研究に刺激を受けて、研究者たちは不正確な文脈学習から故意の不誠実さに焦点を広げ、モデルにウソをつくように明示的に指示を与えることでこの文脈での不誠実さに責任があるモデルのどの層と注意ヘッドがあるのかを特定して理解しようとしています。

以下に彼らの貢献を示します:

1. 研究チームは、真偽の質問でかなり下回る精度に基づいて、LLaMA-2-70b-chatが嘘をつくように訓練できることを示しています。研究チームによれば、これは非常に微妙で、注意深く迅速に設計する必要があります。

2. activation patchingおよびprobingを使用して、研究チームは不正行動に関連する5つのモデル層に独立した証拠を見つけました。

3. 0.9%の全ヘッドに対して誘因介入が効果的に行われ、研究チームが欺瞞的なモデルに真実を返すように強制しました。これらの処理は、複数のデータセットの分割や提示に対して弾力的です。

要するに、研究チームは、真実を言うかどうかについてLLMに指示を与えるという単純な嘘の事例を考察しました。その結果、巨大なモデルでも不正行動が表示され、正直に回答するように求められた場合には正しい回答が生成され、ウソをつくように追い込まれると誤った回答が生成されることがわかりました。これらの調査結果は、活性化探索がプロンプトでの分布外にも一般化できる可能性があることを示唆する以前の研究に基づいています。しかし、研究チームは、これがモデルが「真」トークンよりも早く「偽」トークンを出力する傾向にあるといった問題により、プロンプトのエンジニアリングに長い時間が必要になる場合があることも発見しました。

研究チームは、接頭辞の挿入により、一貫して嘘を引き起こすことができました。その後、チームは不誠実なモデルと誠実なモデルの活性化を比較し、嘘をつくために関与する層と注意ヘッドを特定しました。研究チームは、この嘘の行動を調査するために線形プローブを使用することで、初めから中間層が誠実なプロンプトとウソつきプロンプトに対して類似のモデル表現を示し、それから急激に反対向きに分岐することを発見しました。これは、文献の一部が求めるように、以前の層が文脈非依存の真実の表現を持つべきであることを示しているかもしれません。また、activation patchingは、特定の層とヘッドの動作についてさらに理解するために研究チームが使用した別のツールです。研究者たちは、局所的な介入が正直なプロンプトおよびウソつきモデル間のミスマッチを完全に解決できることを発見しました。

重要なのは、わずか46の注意ヘッドに対するこれらの介入が、データセットやプロンプトに対して強固な耐性を示していることです。研究チームは、モデルがデフォルトで誠実なモデルの正確性と誠実さを主に調査してきた以前の研究とは対照的に、アクセス可能なデータセットを使用し、明示的にモデルに嘘をつくように指示することで嘘を重点的に研究しています。この文脈によって、研究者たちは不正な行動を促進する微妙な点や大規模モデルがどのように不誠実な行動に関与しているかについて多くの知識を得ることができました。研究チームは、LLMの倫理的かつ安全な応用を保証するために、この文脈でのさらなる研究がLLMの嘘つきを防止する新しいアプローチにつながると期待しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AutoGPTQをご紹介します:GPTQアルゴリズムに基づく使いやすいLLMs量子化パッケージで、ユーザーフレンドリーなAPIを提供します

Hugging Faceの研究者たちは、大規模な言語モデル(LLM)の訓練と展開における資源集約型の要求に対処するための革新的な解決...

データサイエンス

「VSCodeをDatabricksと統合して、データエンジニアリングのパイプラインとモデルを構築および実行する」

「データブリックスクラスタを使用して、ローカルでデータエンジニアリングパイプラインと機械学習モデルを開発しますVSCode...

機械学習

人工知能の未来を形作る:進歩と革新のための迅速なエンジニアリングの重要性

ChatGPTはリリース当日から話題になっています。革新的なチャットボットを既に100万人以上のユーザーが利用しています。ChatG...

AIニュース

「コヒアーがコーラルを導入:最も戦略的なチームの生産性向上を目指す企業向けの知識アシスタント」

コヒアは、戦略的なチーム内で生産性を向上させるために特別に設計された最先端の企業向けナレッジアシスタント、Coralを提供...

AI研究

「UCバークレーの研究者が開発したALIA:微細分類タスクのための自動言語ガイド画像拡張の画期的なブレイクスルー」

細粒度イメージ分類は、大きなカテゴリ内のサブカテゴリに画像を分類するコンピュータビジョンのタスクです。これは、特定の...

機械学習

「Vchitectを紹介します:テキストからビデオ(T2V)およびイメージからビデオ(I2V)アプリケーションに適したオープンソースの大規模一般istビデオ作成システム」

“`html 人工知能(AI)の人気が爆発的に高まったことにより、深層生成モデルの大幅な進展が生まれました。これらのモデ...