UC Berkeleyの研究者がゴーストバスターを導入:LLM生成テキストの検出のための最先端AIメソッド

UC Berkeleyの研究者がゴーストバスターを使用して、最新AIメソッドでLLM生成テキストを検出

ChatGPTは、さまざまなトピックにわたって、流暢なテキストを簡単に生成する能力を革新しました。しかし、実際にはどれほど優れているのでしょうか?言語モデルは事実に誤りを含んだり、幻覚に陥ったりする傾向があります。読者は、そうしたツールがニュース記事や他の情報的なテキストのゴーストライティングに使用されているかどうかを判断する際、情報源を信頼するかどうかを知らせるために、これらのツールが使用されているかどうかによって判断することができます。これらのモデルの進歩は、テキストの信憑性と独自性に関する懸念も引き上げました。多くの教育機関は、コンテンツの作成が容易であることからChatGPTの使用を制限しています。

ChatGPTのような言語モデルは、訓練に使用された膨大なテキストのパターンや情報に基づいて応答を生成します。それは応答を逐語的に再現するのではなく、与えられた入力に対して最適な継続を予測して理解することによって新しいコンテンツを生成します。しかし、反応は訓練データから情報を引用し合成することがあり、既存のコンテンツとの類似性が生じることがあります。言語モデルは独自性と正確性を目指していますが、完璧ではありません。ユーザーは慎重に判断し、重要な意思決定や専門家の助言を必要とする状況において、AIに生成されたコンテンツだけに依存しないようにする必要があります。

DetectGPTやGPTZeroのような多くの検出フレームワークが存在します。これらのフレームワークは、LLMがコンテンツを生成したかどうかを検出します。ただし、これらのフレームワークの性能は、元々評価されていなかったデータセットでは落ち込むことがあります。カリフォルニア大学の研究者たちは、構造化検索と線形分類に基づいた検出法である「Ghostbusters」を提案しています。

Ghostbusterは、確率計算、特徴選択、および分類器のトレーニングという3つのステージのトレーニングプロセスを使用します。最初に、各ドキュメントを一連のベクトルに変換し、言語モデルの一連のトークン確率を計算することによって、それぞれのドキュメントを表現します。次に、これらの確率を組み合わせるためのベクトルとスカラー関数の空間で構造化検索手順を実行することによって、特徴を選択します。そして最後に、確率に基づく最良の特徴および追加の手動選択特徴を使用して、単純な分類器をトレーニングします。

Ghostbusterの分類器は、構造化検索によって選択された確率に基づく特徴と、単語の長さと最大トークン確率に基づく7つの追加の特徴の組み合わせでトレーニングされます。これらの他の特徴は、AIによって生成されたテキストに関する定性的なヒューリスティックな観察を取り入れることを意図しています。

Ghostbusterのパフォーマンスの向上は、訓練とテストのデータセットの類似性に対して堅牢です。Ghostbusterは、すべての条件において97.0のF1スコアを達成し、DetectGPTを39.6のF1スコア、GPTZeroを7.5のF1スコアで上回りました。Ghostbusterは、クリエイティブライティングの領域を除いて、すべての領域でRoBERTaのベースラインを上回りましたが、RoBERTaの領域外性能ははるかに悪かったです。F1スコアは、分類モデルのパフォーマンスを評価するために一般的に使用される指標です。これは、適合率と再現率の両方を組み合わせて単一の値に結び付ける指標であり、データセットの不均衡な取り扱いに特に有用です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

AIシステム:発見されたバイアスと真の公正性への魅力的な探求

「人工知能(AI)はもはや未来の概念ではありません-それは私たちの生活の一部になっています Visaが1秒間に1,700件のトラン...

データサイエンス

「MLを学ぶ勇気:L1とL2の正則化の解明(パート1)」

「機械学習への挑戦へようこそ」へようこそ、ここではL1とL2の正則化について探求を始めますこのシリーズは、複雑な機械学習...

機械学習

クロスバリデーションの助けを借りて、あなたの機械学習モデルに自信を持ちましょう

「訓練された機械学習モデルを訓練データ自体で評価することは基本的に間違っていますもし評価が行われれば、モデルは訓練中...

AIニュース

Amazon SageMaker Model Cardの共有を利用して、モデルのガバナンスを向上させる

MLガバナンスの一環として利用可能なツールの1つは、Amazon SageMaker Model Cardsですこのツールは、モデルのライフサイクル...

AI研究

NVIDIAとテルアビブ大学の研究者が、効率的な訓練時間を持つコンパクトな100 KBのニューラルネットワーク「Perfusion」を紹介しました

テキストから画像への変換(T2I)モデルは、自然言語の入力を通じて創造プロセスを指示する力をユーザーに与えることで、技術...

機械学習

役に立つセンサーがAI in a Boxを立ち上げる

「あなた自身のプライベートで安全なAIボックスを持ってみたいですか?全部のアプリ、不快感はなしでそれがUseful Sensorsが...