「ハリー・ポッターとは誰なのか？Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」

「ハリー・ポッターの真髄を探る - マイクロソフトリサーチのLLM概念を洞察する方法」

ファインチューニングによって、LLMは既存の知識を忘れることができるのでしょうか？

私は最近、16万人以上の購読者を持つAIに特化した教育ニュースレターを始めました。TheSequenceは、5分で読むことができるノン・ヒューイ・ノン・ニュース（つまり、ハイプやニュースは一切なし）な機械学習向けニュースレターです。このニュースレターでは、機械学習のプロジェクト、研究論文、概念の最新情報を提供しています。ぜひ以下から購読してご覧ください：

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新情報を入手するための最良の情報源

thesequence.substack.com

大規模な言語モデル（LLM）は、通常、大量の未ラベルデータで訓練され、非常に多様な主題についての知識を獲得することがあります。LLMの事前トレーニングに使用されるデータセットには、著作権があるものが含まれることがしばしばあり、開発者、ユーザー、オリジナルコンテンツの作成者にとって法的および倫理的な懸念を引き起こします。しばしば、特定のドメインに適応させるために、LLMから特定の知識を削除する必要があります。LLMの学習は驚くべきものですが、特定の概念の「忘れる」ことは非常に発展途上の領域です。ファインチューニングメソッドは新しい概念を組み込むためには確かに効果的ですが、特定の知識を忘れるために使用することはできるのでしょうか？

Microsoft Researchの最も魅力的な論文の1つで、LLMのための忘却テクニックが探求されています。課題は、Llama-7Bがハリー・ポッターのいかなる知識も忘れることです。

LLMにおける忘却の課題

近年、LLMのトレーニングに使用されるデータに対する検証が増えています。著作権侵害からプライバシー問題、コンテンツのバイアス、虚偽のデータ、さらには有害な情報の存在まで、さまざまな問題にスポットライトが当てられています。特定のトレーニングデータは固有の問題を抱えていることは明らかです。しかし、トレーニング済みのLLMから特定のデータを削除する必要がある場合、どうなるのでしょうか？

従来、AIコミュニティは新しい情報を組み込むためにLLMをファインチューニングすることは比較的簡単だと考えていました。しかし、これらの機械が以前に学んだデータを忘れることは、非常に困難な課題です。たとえるなら、完全に焼きあがったケーキから特定の材料を取り除くことに似ており、ほぼ不可能と思われる作業です。ファインチューニングによって新しいフレーバーを追加することはできますが、特定の成分を取り除くことは非常に難しいのです。

さらに、LLMの再トレーニングには莫大なコストがかかります。これらの巨大なモデルをトレーニングするプロセスは、数千万ドル以上の投資を要する場合があります。これらの困難な障壁が存在するため、忘却はAIの分野内で最も複雑な謎の一つです。具体的な研究がないため、AIコミュニティでの懐疑論が高まっています。

手法

Microsoft Researchの生成言語モデルの忘却手法は、次の3つのコアコンポーネントで構成されています：

1. 強化モデリングによるトークンの識別： 研究者らは、ターゲットデータ（例：ハリー・ポッターの本）をさらにファインチューニングすることで、選択的な内容の知識を強化する専用モデルを構築します。このプロセスによって確率が著しく上昇したトークンが特定され、生成時に回避すべき内容に関連したトークンとして識別されます。

2. 表現の置き換え： 忘却を容易にするために、ターゲットデータから特有のフレーズを一般的な同等のフレーズに置き換えます。モデルはこれらのトークンに対して代替ラベルを予測し、特定のターゲットコンテンツを学習していないバージョンをシミュレートします。

3. ファインチューニング： 代替ラベルを持つこれらのトークンを装備したモデルは、ファインチューニングを受けます。基本的に、モデルがターゲットデータに関連する文脈に遭遇した場合、元のコンテンツを「忘れる」効果を発揮します。

このシナリオでは、Microsoft Researchは生成言語モデルのトレーニングデータの一部を忘れるという課題に取り組んでいます。モデルがデータセットXでトレーニングされ、サブセットY（忘却の対象と呼ばれる）を忘れる必要があるとします。X \ Yでモデルを再トレーニングする効果を近似することが目標ですが、X \ Yでの完全な再トレーニングは時間と費用の面で実用的ではありません。

テキストの未学習化のための最初のアイデアは、損失関数を反転させながらモデルをテキストに対してトレーニングすることかもしれません。しかし、経験的な研究結果は、この手法がこの文脈では有望な結果をもたらさないことを示しています。制限は、モデルが特定のトークンの成功した予測がハリー・ポッターの小説の知識に関連しているのではなく、その一般的な言語理解に反映されている場合に生じます。例えば、「ハリー・ポッターは彼に近づいて言った:『こんにちは。私の名前は』」という文で「ハリー」を予測する場合、その結果はモデルが本自体を未学習化するのではなく、「私の名前は」というフレーズの理解を妨げます。

別の課題は、ベースラインモデルが「ハリー・ポッターの二人の親友は」という文で「ロン」や「ハーマイオニー」といったトークンを自信を持って予測する場合に生じます。単純な逆の損失を適用すると、予測を変更するために多くの勾配降下のステップが必要になります。さらに、最も可能性の高いトークンは、単にハリー・ポッターの小説に関連した代替トークンに変わるだけです。

それに代わりに、目標は「ロン」といったトークンに対して、「ハリー・ポッター」の本とは無関係で文脈的に適切な代替案をモデルに提供することです。つまり、テキスト内の各トークンに対して、次のトークンとしてハリー・ポッターの本に触れていないモデルが予測するものは何だろうか、という問いが生じます。これは汎用的な予測と呼ばれ、Microsoftの手法は強化ブートストラッピングやアンカード用語などの技術を用いてこれらの汎用的な予測を得るために適用されます。

結果

Microsoft Researchは、元々MetaによってトレーニングされたLlama2–7bモデル内の魅惑的なハリー・ポッターの世界を記憶から消すという、ほぼ不可能と思われる大きな試みに取り組みました。複数の情報源によれば、モデルのトレーニングには「books3」というデータセットが含まれており、これには象徴的な本だけでなく、この研究の寄稿者によって執筆された著作物を含む、他の著作権のある文学作品の宝庫が含まれています。

モデルの驚くべき知識の深さを示すために、単なる「ハリーがその秋学校に戻った時」といった一見一般的なプロンプトを提示するだけで、J.K.ローリングの魔法の世界を舞台にした詳細な物語が織り成されるのを観察するだけで十分です。

Image Credit: Microsoft Research — 画像クレジット: Microsoft Research

しかし、Microsoft Researchの提案された手法の適用により、モデルの応答における深い変化が現れました。オリジナルのLlama2–7bモデルによって生成された補完と、私たちの精巧にチューニングされた繰り返しによって生成された補完とを比較することによって、いくつかの例について詳しく見てみましょう。

Microsoft Researchの調査では、習得の解除は課題をはらんでいますが、Llama2–7bモデルを用いた実験において好ましい結果が得られたことから、可能な取り組みとして現れています。ただし、この成果には慎重な見方が必要です。モデルに与えられたプロンプトとそれによる応答の分析に頼る彼らの現在の評価方法は、特定の文脈では効果的ですが、保持された情報を抽出するためのより複雑な敵対的な手法を見逃す可能性があります。トークンの確率分布に没頭するなどの非伝統的な手法は、モデルの隠された知識に無意識に触れる可能性があります。

まとめると、彼らの手法は有望な初歩的なステップを示していますが、異なるコンテンツカテゴリにおける適応性は十分な検証を必要とします。提示されたアプローチは基本的なフレームワークを提供しますが、精緻化と拡張のためにさらなる研究が必要です、特に大規模な言語モデル内のより広範な未学習化タスクの文脈で。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceLarge Language ModelsMachine learningThesequence

Was this article helpful?

93 out of 132 found this helpful

「ハリー・ポッターとは誰なのか？Microsoft ResearchのLLMの概念の忘却を精緻化する方法の内部」

ファインチューニングによって、LLMは既存の知識を忘れることができるのでしょうか？

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新情報を入手するための最良の情報源

LLMにおける忘却の課題

手法

結果

Was this article helpful?

微調整、再教育、そして更なる進化：カスタムLLMで前進

チャットGPTの落とし穴を乗り越える方法

AI研究

「CMUの研究者たちは、TIDEEを提案します：明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」

GPT-4のようなモデルは、行動能力を与えられた場合に安全に振る舞うのか？：このAI論文では、「MACHIAVELLIベンチマーク」を導入して、マシン倫理を向上させ、より安全な適応エージェントを構築することを提案しています

(Note Since HTML is a markup language, it doesn't have a direct translation. The provided text is a translation of the content.)

AIAgentに会ってみましょう：APIキーを必要とせず、GPT4によって動力を得るWebベースのAutomateGPT

「密度プロンプトのチェーンを通じたGPT-4要約の強化」

メイカーに会おう：ソフトウェアエンジニアがNVIDIA Jetsonを活用して自律運転スケートパークを構築