「マシンの学習を忘れることを学ぶ」

「機械学習の忘却を学ぶ」

生成言語モデルの機械によるアンラーニングのデータ駆動アプローチ

DALLE 3で生成されたイメージ

今日のテックの世界で、機械学習の存在を知らない人を見つけるのは難しいでしょう。過去十年間、この研究分野は非常にトレンディであり、業界外の人々でも人工知能(AI)、ニューラルネットワーク(NN)、機械学習(ML)といった言葉になじみがあります。

しかし、機械アンラーニングに関しては、法律業界の方がテックコミュニティよりもより詳しく知っているようです。迅速なITの世界で数年間と感じるほどの爆発的な成長を遂げた大規模言語モデル(LLM)は、AIの開発に関連する数百の未解決の倫理的・法的な問題を引き起こしました。小説家たちは、同意なしに彼らのテキストをGPTモデルのトレーニングに使用したOpenAIを訴えています。Twitterでは、自身の作品が著作権法に違反して使用されたと考える芸術家たちからの批判的なコメントが広まっています。個人情報の削除権に準拠することは非常に困難になっています。

AIのアライメントと同様に、機械アンラーニングは見過ごされた分野の一つですが、限られたオープンソースの解決策しか利用できません。私は機械アンラーニングの探求を奨励し、普及させるべきだと考えています。現在のAIの使用に関連する法律や倫理的な基準は未発展であり、データ保護のためのメカニズムが深く欠けているからです。本記事では、生成言語モデルに対する最初のアプライドアンラーニング手法のいくつかの実践的な改善策を提案したいと思います。

機械アンラーニング

「機械アンラーニング」または「機械忘却」という用語は、その音の通りに理解されます。これには、機械学習モデルの「知識ストレージ」から要求された情報を削除するための手法が含まれます。ただし、これを効率的に実現するための実際の方法を時間、計算リソース、および「忘却されていない」データでのモデルのパフォーマンスの点で考慮する必要があります。明確な解決策は、初期データセットを使用してモデルをゼロから再トレーニングすることであり、同時に「忘却セット」を除外することです。ただし、これはディープニューラルネットワークのアンラーニングには非常に非実用的なアプローチになります。

「機械アンラーニングフレームワーク」 from 「Machine Learningのサーベイ」

機械アンラーニングの研究分野における中核的な研究成果は、「機械アンラーニングのサーベイ」という記事に簡潔にまとめられています。他にも、アクセシブルな説明が提供される「Machine unlearning: The duty of forgetting」という記事もおすすめです。個人的にはこれらのリソースをお勧めしますが、このトピックに関する他の質の高い研究資料も多数見つかるでしょう。しかし、実践的な応用に関しては、まだまだこれからです。

この分野を理論的な探求から実践的な応用へと転換させる可能性を秘めた有望な取り組みが、NeurIPS 2023 Machine Unlearning challengeです。ここでは、参加者がResNet18 Convolutional Neural Networkのためのアンラーニングアルゴリズムを作成する競技が行われます。

生成言語モデルの機械アンラーニング

広範な可用性と普及により、ほとんどのインターネットユーザーが生成言語モデルにアクセスできるようになったことを考慮すると、アンラーニングのメカニズムが重要です。最初の成功した手法の1つは、Ronen EldanとMark Russinovichによる「ハリー・ポッターって誰?LLMにおける近似アンラーニング」でオープンソースとして公開された方法です。

StableDiffusionで生成されたイメージ

著者たちは、Metaが今年の夏にリリースしたLlama 2 7bチャットモデルで機械アンラーニングのためのデータ拡張アプローチを使用しています。選ばれたアンラーニングの対象、または「忘却セット」として知られるのは、ハリー・ポッター・サーガ(これらのマグルは天才ですね!)であり、著作権法に違反する可能性があるため、機械アンラーニングの完璧な例です。彼らは、わずか1時間のGPUでの微調整で、結果として生じるモデルは、ハリー・ポッターに関連するほとんどのコンテンツを思い出すことができない一方、一般的なベンチマークのパフォーマンスはほとんど影響を受けないことを示しています。

アプローチの概要

このアプローチの主な目標は、Llama 2 7bが指定された忘却セット(「ハリー」 <は友達> 「ハーマイオニー」)間の関連性を忘れることであり、モデルに関連性のない一般的な代替案(「ハリー」 <は友達> 「サリー」)を与えることです。これらの代替案を微調整データセットの目標ラベルとして提供するためには、忘却するドメインの固有の用語をターゲットの生成時に高く罰則化する必要があります。このような罰則化は、元の入力であるハリー・ポッターの本による強化モデルによって生成されたロジットと、元の入力の一般的な翻訳におけるベースラインモデルによって生成されたロジットを式(1)で組み合わせることで実現することができます。

「ハリー・ポッターって誰?LLMにおける近似アンラーニング」の式(1)

強化モデルは、ハリー・ポッターの小説にさらに微調整されたLlama 2 7bです。ベースラインモデルは、チューニングされていないLlama 2 7bです。ベースラインモデルの出力分布をハリー・ポッターのテーマから遠ざけるために、著者たちは元の入力の固有の用語を一般的な用語に置き換えることで、モデルがハリー・ポッターのサーガとは関係のない文脈に基づいて次の単語を生成するようにします。このような置き換えを自動化するために、著者たちは「ハリー・ポッター」固有の用語を一般的な翻訳にマッピングしたアンカータームの辞書を導入しています。この辞書は、GPT-4によって完全に収集されました。

「ハリー・ポッターって誰?LLMにおける近似アンラーニング」の{‘Anchor Terms’: ‘Generic translations’}

結果として得られる微調整データセットは、ハリー・ポッターの本からトークン化されたテキストブロックで構成され、式(1)のv_genericの最大エントリに対応するトークンが目標ラベルとなります。

「ハリー・ポッターは誰ですか?LLMsにおける近似忘却」からの微調整データセットの一部

要約すると、著者たちは忘却プロセスの4つのステップを説明しています:

「ハリー・ポッターは誰ですか?LLMsにおける近似忘却」からの機械忘却アルゴリズム

アプローチの活用-キーコンセプト

データ拡張アプローチの結果は有望であり、同様のタスクへの追加応用が奨励されています。しかしながら、著者たちはいくつかの応用段階において改善の余地を残しています。

GPT-4の既知情報への依存: このアルゴリズムは、ジェネリックな翻訳を生成するためにGPT-4がハリー・ポッターシリーズについての広範な知識を持っていることをある程度前提としています。シリーズのファンによる再評価は貴重な洞察を提供する可能性があります。

固有の言葉に関する課題: シリーズに関連するすべての固有の用語を罰することは問題です。たとえば、「Harry」のすべてのインスタンスを「John」のような一般的な名前に置き換えることは、自然言語の理解を妨げ、次のような文につながります。「ハリーは彼のところに近づき、『こんにちは、私の名前はジョンです』と言いました。」これに対処するため、著者たちは次の戦略を採用しています:

  • アンカーされた用語の繰り返しインスタンスを初回の出現以降、損失関数に寄与することから除外する。
  • 以前に出現した用語の翻訳に関連する重み付けロジットの確率を低下させる。

ただし、この戦略はモデルの一般的な言語理解にも影響を与えます。微調整データセットにおいて有効な代替手段は、たとえば「ハリーは彼のところに近づき、『こんにちは、私の名前はハロルドです』と言いました。」です。

評価手法: チームは初期評価のためにGPT-4を使用しました。これにはハリー・ポッタープロンプトの300回の完了と完了のさらなる分析が含まれています。それにもかかわらず、精度における限界を認識し、最終的なトレーニングではより詳細な検証のために結果の手動検査を選択しました。著者たちは、このような手動検査の設定方法についての洞察は提供していません。

課題の克服

キーコンセプトに対処するより効果的な方法は、人間の洞察と大規模言語モデル(LLMs)を組み合わせたハイブリッドアプローチです。

人間の洞察と大規模言語モデルの集合的な強みを引き出すために、私は3つのクラウドソーシングプロジェクトのインタフェースを設計しました。これらのインタフェースは、上記の各課題に適したものです。

GPT-4の既知情報への依存:

作者による画像

名前エンティティ認識(NER)を使用して、GPT-4のNERの選択肢をアンカー用語の辞書に対して修正します。入力として、テキストとGPT-4の選択した用語(モデルに直接テキストの位置を返すように依頼できます)を提供し、クラウドに選択されたエンティティを修正し補完するよう指示します。

固有の言葉に関する課題:

作者による画像

ベースラインモデルの助けを借りて、元の入力の一般的な翻訳においてベースラインモデルによって完了された言語的な正確性のプロンプトをチェックします。ベースラインモデルが回答に自信が持てない例(出力トークンの確率がある閾値(経験的に選ばれたもの)以下)は、以下の画像に示されているインターフェースを持つクラウドソーシングプロジェクトに送信する必要があります。

評価手法:

Image by author

GPT-4によって行われた評価の手動検査は、上記の画像のように設計することができます。

結論

著者らは、ハリー・ポッターの架空の世界とは異なり、ノンフィクションの分野には同じような豊かな独自の用語が存在しない場合があることに注意を喚起しています。そのため、この記事で概説されているデータ拡張手法がプロジェクトに適用可能であれば、提案された改善を統合し、自分自身の微調整を進めることを検討してください。共に、機械学習の分野を進歩させることができます!

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more