UC Berkeleyの研究者がゴーストバスターを導入:LLM生成テキストの検出のための最先端AIメソッド
UC Berkeleyの研究者がゴーストバスターを使用して、最新AIメソッドでLLM生成テキストを検出
ChatGPTは、さまざまなトピックにわたって、流暢なテキストを簡単に生成する能力を革新しました。しかし、実際にはどれほど優れているのでしょうか?言語モデルは事実に誤りを含んだり、幻覚に陥ったりする傾向があります。読者は、そうしたツールがニュース記事や他の情報的なテキストのゴーストライティングに使用されているかどうかを判断する際、情報源を信頼するかどうかを知らせるために、これらのツールが使用されているかどうかによって判断することができます。これらのモデルの進歩は、テキストの信憑性と独自性に関する懸念も引き上げました。多くの教育機関は、コンテンツの作成が容易であることからChatGPTの使用を制限しています。
ChatGPTのような言語モデルは、訓練に使用された膨大なテキストのパターンや情報に基づいて応答を生成します。それは応答を逐語的に再現するのではなく、与えられた入力に対して最適な継続を予測して理解することによって新しいコンテンツを生成します。しかし、反応は訓練データから情報を引用し合成することがあり、既存のコンテンツとの類似性が生じることがあります。言語モデルは独自性と正確性を目指していますが、完璧ではありません。ユーザーは慎重に判断し、重要な意思決定や専門家の助言を必要とする状況において、AIに生成されたコンテンツだけに依存しないようにする必要があります。
DetectGPTやGPTZeroのような多くの検出フレームワークが存在します。これらのフレームワークは、LLMがコンテンツを生成したかどうかを検出します。ただし、これらのフレームワークの性能は、元々評価されていなかったデータセットでは落ち込むことがあります。カリフォルニア大学の研究者たちは、構造化検索と線形分類に基づいた検出法である「Ghostbusters」を提案しています。
- 「サム・アルトマンがマイクロソフトでAI研究を主導する」
- KAISTのAI研究者が、「KTRL+F」という技術を導入しましたこれは、ドキュメント内で意味的なターゲットをリアルタイムで特定するための知識を補完するコンピューター上の検索タスクです
- スタンフォード大学の研究者が『FlashFFTConv』を導入:長いシーケンスのFFT畳み込みを最適化するための新しい人工知能システム
Ghostbusterは、確率計算、特徴選択、および分類器のトレーニングという3つのステージのトレーニングプロセスを使用します。最初に、各ドキュメントを一連のベクトルに変換し、言語モデルの一連のトークン確率を計算することによって、それぞれのドキュメントを表現します。次に、これらの確率を組み合わせるためのベクトルとスカラー関数の空間で構造化検索手順を実行することによって、特徴を選択します。そして最後に、確率に基づく最良の特徴および追加の手動選択特徴を使用して、単純な分類器をトレーニングします。
Ghostbusterの分類器は、構造化検索によって選択された確率に基づく特徴と、単語の長さと最大トークン確率に基づく7つの追加の特徴の組み合わせでトレーニングされます。これらの他の特徴は、AIによって生成されたテキストに関する定性的なヒューリスティックな観察を取り入れることを意図しています。
Ghostbusterのパフォーマンスの向上は、訓練とテストのデータセットの類似性に対して堅牢です。Ghostbusterは、すべての条件において97.0のF1スコアを達成し、DetectGPTを39.6のF1スコア、GPTZeroを7.5のF1スコアで上回りました。Ghostbusterは、クリエイティブライティングの領域を除いて、すべての領域でRoBERTaのベースラインを上回りましたが、RoBERTaの領域外性能ははるかに悪かったです。F1スコアは、分類モデルのパフォーマンスを評価するために一般的に使用される指標です。これは、適合率と再現率の両方を組み合わせて単一の値に結び付ける指標であり、データセットの不均衡な取り扱いに特に有用です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「浙江大学の研究者がUrbanGIRAFFEを提案し、難しい都市のシーンに対する制御可能な3D認識画像の生成に取り組む」
- MITの研究者たちは「MechGPT」を導入しました:メカニクスと材料モデリングにおいてスケール、学問領域、およびモダリティをつなぐ言語ベースのパイオニア
- 『NVIDIAの研究者たちが、現行のCTCモデルと互換性のあるGPU加速の重み付き有限状態トランスデューサ(WFST)ビームサーチデコーダを導入』
- 朝鮮大学研究者が、ブリーチされたサンゴの正確な位置情報を特定するための機械学習フレームワークを紹介します特徴ベースのハイブリッドビジュアル分類によるものです
- UCバークレーの研究者は、目的指向の対話エージェントのゼロショット獲得を実現する人工知能アルゴリズムを提案しています
- ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました
- ワシントン大学とデューク大学の研究者たちは、Punicaを紹介しました:共有GPUクラスタで複数のLoRAモデルを提供するための人工知能システム