ワシントン大学とプリンストン大学の研究者が、事前学習データ検出データセットWIKIMIAと新しい機械学習アプローチMIN-K% PROBを発表しました

『ワシントン大学とプリンストン大学の研究者が、WIKIMIA学習データセットとMIN-K% PROB新機械学習手法を発表』

“`html

大規模な言語モデル(LLMs)は、大量のテキストデータを処理できる強力なモデルです。彼らは数百ギガバイトからテラバイトに及ぶテキストコーパスで訓練されます。このようなデータの規模により、訓練データに著作権のあるテキストや個人を特定できる情報が含まれていないかを調べることが重要になります。また、訓練コーパスの成長速度のため、これらのLLMsの開発者はデータの完全な構成を開示することによりますます消極的になっています。

ワシントン大学とプリンストン大学の研究者グループは、上記の問題について研究しました。テキストの一部とLLMへのブラックボックスアクセスを与えられた彼らは、モデルが提供されたテキストで訓練されたかどうかを判定しようとしました。彼らは、WIKIMIAというベンチマークを導入しました。このベンチマークには事前学習データと非事前学習データが含まれており、ゴールドデータとしてのサポートを提供しています。彼らはまた、LLMの下で確率が低いアウトライアーワードを特定する新しい検出方法であるMIN-K% PROBを導入しました。

問題のある訓練テキストを特定するために信頼性のあるベンチマークを持つことは重要です。WIKIMIAは、新しくリリースされた事前学習済みLLMs上で検出方法を自動的に評価するダイナミックなベンチマークです。MIN-K% PROBメソッドは、未知のテキストはLLMがよく知らない単語を含んでいる可能性が高いという仮説に基づいています。MIN-K% PROBは、これらのアウトライアーワードの平均確率を計算します。

MIN-K% PROBの動作は以下のとおりです。テキストXがあり、LLMがXで訓練されたかどうかを判定する必要があります。このメソッドは、与えられたテキストの各トークンの確率をLLMを使用して計算します。次に、確率の最小値を持つk%のトークンを選択し、その平均対数尤度を計算します。同じ値が高ければ高いほど、テキストXが事前学習データにある可能性が高いことを意味します。

研究者たちは、3つの実生活シナリオ(著作権侵害本の検出、汚染されたダウンストリームの例の検出、および機械を使ったプライバシーオーディティングのための)でこの方法を適用しました。彼らは、100冊の著作権のある本からの10,000のテキストスニペットのテストセットを使用し、その約90%が50%を超える汚染率を持っていることを発見しました。特に、彼らの調査によれば、GPT-3モデルには20冊の著作権のある本からのテキストが含まれていました。

LLMsから個人情報や著作権のあるデータを削除するためには、Machine unlearningメソッドを使用します。研究者たちはMIN-K% PROBメソッドを使用し、著作権のある本を削除した後でもLLMsは似たような著作権保護されたコンテンツを生成し続けることができるとわかりました。

結論として、MIN-K% PROBはLLMが著作権や個人データで訓練されたかどうかを判定するための新しい方法です。研究者たちは、実世界のケーススタディを使用して自分たちの方法の有効性を検証し、GPT-3モデルが著作権のある本で訓練された可能性が強力な証拠を見つけました。彼らはこのメソッドが問題のある訓練テキストを検出するための一貫した有効な解決策であり、モデルの透明性と責任に向けた重要な進歩を示していると結論付けました。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more