UC Berkeleyの研究者がゴーストバスターを導入:LLM生成テキストの検出のための最先端AIメソッド

UC Berkeleyの研究者がゴーストバスターを使用して、最新AIメソッドでLLM生成テキストを検出

ChatGPTは、さまざまなトピックにわたって、流暢なテキストを簡単に生成する能力を革新しました。しかし、実際にはどれほど優れているのでしょうか?言語モデルは事実に誤りを含んだり、幻覚に陥ったりする傾向があります。読者は、そうしたツールがニュース記事や他の情報的なテキストのゴーストライティングに使用されているかどうかを判断する際、情報源を信頼するかどうかを知らせるために、これらのツールが使用されているかどうかによって判断することができます。これらのモデルの進歩は、テキストの信憑性と独自性に関する懸念も引き上げました。多くの教育機関は、コンテンツの作成が容易であることからChatGPTの使用を制限しています。

ChatGPTのような言語モデルは、訓練に使用された膨大なテキストのパターンや情報に基づいて応答を生成します。それは応答を逐語的に再現するのではなく、与えられた入力に対して最適な継続を予測して理解することによって新しいコンテンツを生成します。しかし、反応は訓練データから情報を引用し合成することがあり、既存のコンテンツとの類似性が生じることがあります。言語モデルは独自性と正確性を目指していますが、完璧ではありません。ユーザーは慎重に判断し、重要な意思決定や専門家の助言を必要とする状況において、AIに生成されたコンテンツだけに依存しないようにする必要があります。

DetectGPTやGPTZeroのような多くの検出フレームワークが存在します。これらのフレームワークは、LLMがコンテンツを生成したかどうかを検出します。ただし、これらのフレームワークの性能は、元々評価されていなかったデータセットでは落ち込むことがあります。カリフォルニア大学の研究者たちは、構造化検索と線形分類に基づいた検出法である「Ghostbusters」を提案しています。

Ghostbusterは、確率計算、特徴選択、および分類器のトレーニングという3つのステージのトレーニングプロセスを使用します。最初に、各ドキュメントを一連のベクトルに変換し、言語モデルの一連のトークン確率を計算することによって、それぞれのドキュメントを表現します。次に、これらの確率を組み合わせるためのベクトルとスカラー関数の空間で構造化検索手順を実行することによって、特徴を選択します。そして最後に、確率に基づく最良の特徴および追加の手動選択特徴を使用して、単純な分類器をトレーニングします。

Ghostbusterの分類器は、構造化検索によって選択された確率に基づく特徴と、単語の長さと最大トークン確率に基づく7つの追加の特徴の組み合わせでトレーニングされます。これらの他の特徴は、AIによって生成されたテキストに関する定性的なヒューリスティックな観察を取り入れることを意図しています。

Ghostbusterのパフォーマンスの向上は、訓練とテストのデータセットの類似性に対して堅牢です。Ghostbusterは、すべての条件において97.0のF1スコアを達成し、DetectGPTを39.6のF1スコア、GPTZeroを7.5のF1スコアで上回りました。Ghostbusterは、クリエイティブライティングの領域を除いて、すべての領域でRoBERTaのベースラインを上回りましたが、RoBERTaの領域外性能ははるかに悪かったです。F1スコアは、分類モデルのパフォーマンスを評価するために一般的に使用される指標です。これは、適合率と再現率の両方を組み合わせて単一の値に結び付ける指標であり、データセットの不均衡な取り扱いに特に有用です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

新しいLAMPスタック:生成AI開発の革新を照らす

LAMPスタックは、さまざまなドメインでの生成型AIの開発と展開において必須となってきています

AIニュース

「従業員は職場でChatGPTを望む上司は秘密を漏らすことを心配している」

一部の企業リーダーは、会社や顧客の機密情報が公開されることへの懸念から、生成型人工知能ツールの使用を禁止しています

データサイエンス

保険顧客の生涯価値予測とセグメンテーション

あなたのビジネスにおいて、顧客はどれくらいの価値がありますか?これは些細な質問ではありませんが、マーケティング戦略、...

データサイエンス

「ソフトウェア開発におけるAIの活用:ソリューション戦略と実装」

この記事では、プロセス、ツールの選択、課題の克服について触れながら、ソフトウェア開発にAIをシームレスに統合するための...

AI研究

MITとETH Zurichの研究者たちが、動的なセパレータの選択を通じて、拡張された混合整数線形計画法(MILP)の解決を目的とした機械学習技術を開発しました

複雑な最適化問題に効率的に取り組むことは、グローバルパッケージルーティングから電力グリッド管理まで、持続的な課題です...