UC Berkeleyの研究者がゴーストバスターを導入:LLM生成テキストの検出のための最先端AIメソッド

UC Berkeleyの研究者がゴーストバスターを使用して、最新AIメソッドでLLM生成テキストを検出

ChatGPTは、さまざまなトピックにわたって、流暢なテキストを簡単に生成する能力を革新しました。しかし、実際にはどれほど優れているのでしょうか?言語モデルは事実に誤りを含んだり、幻覚に陥ったりする傾向があります。読者は、そうしたツールがニュース記事や他の情報的なテキストのゴーストライティングに使用されているかどうかを判断する際、情報源を信頼するかどうかを知らせるために、これらのツールが使用されているかどうかによって判断することができます。これらのモデルの進歩は、テキストの信憑性と独自性に関する懸念も引き上げました。多くの教育機関は、コンテンツの作成が容易であることからChatGPTの使用を制限しています。

ChatGPTのような言語モデルは、訓練に使用された膨大なテキストのパターンや情報に基づいて応答を生成します。それは応答を逐語的に再現するのではなく、与えられた入力に対して最適な継続を予測して理解することによって新しいコンテンツを生成します。しかし、反応は訓練データから情報を引用し合成することがあり、既存のコンテンツとの類似性が生じることがあります。言語モデルは独自性と正確性を目指していますが、完璧ではありません。ユーザーは慎重に判断し、重要な意思決定や専門家の助言を必要とする状況において、AIに生成されたコンテンツだけに依存しないようにする必要があります。

DetectGPTやGPTZeroのような多くの検出フレームワークが存在します。これらのフレームワークは、LLMがコンテンツを生成したかどうかを検出します。ただし、これらのフレームワークの性能は、元々評価されていなかったデータセットでは落ち込むことがあります。カリフォルニア大学の研究者たちは、構造化検索と線形分類に基づいた検出法である「Ghostbusters」を提案しています。

Ghostbusterは、確率計算、特徴選択、および分類器のトレーニングという3つのステージのトレーニングプロセスを使用します。最初に、各ドキュメントを一連のベクトルに変換し、言語モデルの一連のトークン確率を計算することによって、それぞれのドキュメントを表現します。次に、これらの確率を組み合わせるためのベクトルとスカラー関数の空間で構造化検索手順を実行することによって、特徴を選択します。そして最後に、確率に基づく最良の特徴および追加の手動選択特徴を使用して、単純な分類器をトレーニングします。

Ghostbusterの分類器は、構造化検索によって選択された確率に基づく特徴と、単語の長さと最大トークン確率に基づく7つの追加の特徴の組み合わせでトレーニングされます。これらの他の特徴は、AIによって生成されたテキストに関する定性的なヒューリスティックな観察を取り入れることを意図しています。

Ghostbusterのパフォーマンスの向上は、訓練とテストのデータセットの類似性に対して堅牢です。Ghostbusterは、すべての条件において97.0のF1スコアを達成し、DetectGPTを39.6のF1スコア、GPTZeroを7.5のF1スコアで上回りました。Ghostbusterは、クリエイティブライティングの領域を除いて、すべての領域でRoBERTaのベースラインを上回りましたが、RoBERTaの領域外性能ははるかに悪かったです。F1スコアは、分類モデルのパフォーマンスを評価するために一般的に使用される指標です。これは、適合率と再現率の両方を組み合わせて単一の値に結び付ける指標であり、データセットの不均衡な取り扱いに特に有用です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

Googleの研究者たちは、AIによって生成された画像を透かしを入れたり識別するためのデジタルツールである「𝗦𝘆𝗻𝘁𝗵𝗜𝗗」を紹介しました

人工知能(AI)の急速に進化する風景の中で、生成モデルは伝統的な手段でキャプチャされたものとほとんど区別のつかない、写...

機械学習

「FraudGPTと出会ってください:ChatGPTのダークサイドの双子」

ChatGPTは人々の仕事やオンラインでの検索内容に影響を与え、人気を集めています。AIチャットボットの潜在能力に興味を持つ人...

データサイエンス

「IoTエッジデバイスのためのクラウドベースのAI/MLサービスの探索」

AIとMLは、自動運転車、ウェブ検索、音声認識などの進歩を可能にしましたIoTデバイスのAIとMLの探求に興味がある場合、お手伝...

データサイエンス

「大規模言語モデル:現実世界のCXアプリケーションの包括的な分析」

大規模言語モデルを使用して、次世代の顧客体験を実現しよう:文脈に基づく応答、感情分析、パーソナライズされた推奨などを...

AI研究

「イェール大学とGoogleの研究者が、効率的な長距離シーケンス処理のために大規模言語モデルを迅速に加速する近似Attentionメカニズム、HyperAttentionを紹介する」という文章です

大規模言語モデルの急速な進歩により、チャットボットから機械翻訳までの幅広いアプリケーションが可能になりました。ただし...

機械学習

NVIDIAは、Generative AIを用いて薬物探索を加速させるためにGenentechと協力

ジェネンテック(ロシュグループの一員)は、 生成AI を使って新しい治療法を発見し、患者に効果的に治療を提供することを先...