悪質なコンテンツ検出のためのLLM:利点と欠点
LLM for Detecting Malicious Content Pros and Cons
有害コンテンツの検出は、インターネットユーザーに対して有害なコンテンツを検出することを意味します。有害なコンテンツの例には、憎悪的/攻撃的なコンテンツ、スパム、嫌がらせ、性的コンテンツ、フィッシング/詐欺、勧誘などがあります。
コンテンツプラットフォーム上の有害なコンテンツは、次のような非常に悪影響をもたらす場合があります。
- ユーザーの感情的な苦痛、屈辱、そして身体的な害
- それをホストするプラットフォームの評判への損害
- アクティブユーザーの減少および広告主の獲得の困難さ
したがって、有害なコンテンツを特定し、監視し、削除を容易にすることが重要です。ユーザー生成コンテンツプラットフォームは、ユーザーがさまざまなコンテンツをアップロードできるため、このリスクにさらされます。UGCプラットフォームには、ソーシャルメディア、メッセージングサービス、フォーラム、ゲーミングプラットフォーム、マーケットプレイスなどが含まれます。これらのプラットフォーム上の有害なコンテンツの検出と軽減は非常に重要です。
このようなコンテンツにさらされるユーザー数を最小限に抑えるために、プラットフォームはしばしば自動検出と有害なコンテンツの削除に頼ることがあります。自動検出は課題が多く、有害なコンテンツはテキスト、ビデオ、画像、リンクなどさまざまな形式で現れるため、有害かどうかを区別することが困難であることがあります。さらに、偽陽性(自動システムが誤って何かを有害として識別すること)は、ユーザーに悪影響を及ぼすだけでなく、プラットフォームの評判の損傷、潜在的な法的問題など、さまざまな負の影響をもたらす可能性があります。プラットフォームは人工知能(AI)を使用して有害なコンテンツを自動的に検出しますが、有害なコンテンツの検出と偽陽性の回避を注意深くバランスさせる必要があります。
教師あり分類器
現在、有害なコンテンツの自動検出に最もよく使用される手法は、ラベル付きデータセットを使用して有害なコンテンツを検出する教師あり機械学習モデル(分類器)をトレーニングすることです。特定の有害性のタイプに対するラベル付きデータセットには、有害な例と無害な例の両方が含まれます。トレーニングプロセスは、コンテンツからの特徴抽出に続いて、抽出された特徴とデータセットのラベルを使用して教師あり分類器をトレーニングすることで構成されます。
事前トレーニングされた基盤モデルの登場により、必要なラベル付きデータセットの数は大幅に減少しました。例えば、テキスト分類の場合、基盤モデルアプローチでは、BERTやRoBERTaなどの事前トレーニングモデルを使用して、テキストの埋め込みを生成し、埋め込みを特徴として従来の教師あり分類器をトレーニングすることが含まれます。このアプローチでは、はるかに小さいラベル付きデータセットが必要です。埋め込みは、データセット内のテキストの意味を捉えるために使用される固定長のベクトル表現です。したがって、教師モデルはテキストの意味が有害かどうかを分類することを学びます。
以下は、上記の方法で使用することができるいくつかの無料のオープンソースの基盤モデルの例です。また、これらのモデルは分類の目的で微調整することもできます。
画像はさらに光学文字認識(OCR)を介して処理することができ、音声/ビデオは自動音声認識(ASR)を介してテキストを抽出することができ、このテキストは有害なコンテンツの検出の対象になります。
以下は、ヘイト分類器をトレーニングするためのサンプルコードです。これにより、ローカルディレクトリの “hate” という名前でモデルがトレーニングされ、出力されるはずです。
教師あり分類器のデメリット
大量のテキストでトレーニングされた基盤モデルを使用することで、教師あり分類器をトレーニングするために必要なラベル付きトレーニング例の数が大幅に減少しますが、この技術にはいくつかのデメリットがあります:
- 教師あり学習には依然としてラベル付きデータが必要であり、これは手間とコストがかかる場合があります。
- 教師あり学習モデルはデータのノイズに敏感です。つまり、わずかな不正確なデータや関係のないデータでも、モデルの性能を著しく低下させる可能性があります。
- 教師あり学習モデルは、トレーニングデータがバイアスを持っている場合にバイアスが生じる可能性があります。つまり、モデルは正確で公平ではない予測をすることになる可能性があります。
大規模言語モデルを使用したNショット分類
Nショット分類は、モデルが以前にトレーニングされていないクラスのオブジェクトを分類できるようにする機械学習の手法です。これは、モデルにクラスの説明セットを提供することで、異なるクラスを区別する特徴を学習できるようにすることで行われます。
悪いコンテンツを検出するためにLLMをプロンプトするためには、さまざまな技術を使用することができます。一般的な技術の1つは、 “このテキストは憎悪表現ですか?” などの自然言語の質問を使用することです。LLMはテキストのクラスを予測することで、この質問に答えるために使用できます。別の技術は、 “このテキストには ‘憎悪’ という単語と ‘すべての移民を殺す’ というフレーズが含まれています。これは憎悪表現ですか?” など、テキストについてのさらなる情報を提供するプロンプトを使用することです。LLMはこの情報を使用して、テキストのクラスについてより的確な判断を下すことができます。質問に加えて、プロンプトの一部としていくつかの例も提供することで、LLMのパフォーマンスを向上させることができます。
LLMを使用した有害コンテンツのゼロショット分類の利点は次のとおりです:
- LLMは、テキストとコードの大規模なデータセットでトレーニングできるため、有害コンテンツの書き方の変動に対してより堅牢です。
- それらは、事前のトレーニングなしで以前に見たことのないクラスやサブクラスの有害コンテンツを分類するために使用することができます。これは、新興の有害コンテンツに適しています。
- さまざまな言語で有害コンテンツを検出することができます。これは、グローバルなコンテンツモデレーションのための貴重なツールです。
- 最も重要なことは、教師あり分類器のトレーニングには大規模なデータセットが必要ないため、オペレーションコスト、立ち上げ時間を削減できることです。
以下はいくつかのサンプルChatGPT APIコードです。悪意のある発言を検出するために0ショット分類を使用しています。Nショット分類も同様です。以下のコードの量がどれだけ小さくなっているかは感動的です。
ゼロショット/Nショット分類にLLMを使用する際の欠点:
- トレーニングやデプロイに計算コストがかかる場合があります。新しい大規模言語モデルをトレーニングすることは非常に非推奨であり、GPT4、Palm 2、Claude 2などのプロプライエタリモデル、またはLLAMA 2やFalconなどのオープンソースモデルを使用することが推奨されます。これらのモデルを使用しても、推論には計算コストがかかることがあります。
- バイアスの影響を受けやすくなり、有害コンテンツの誤分類が発生する可能性があります。
- プロプライエタリモデルには独自のレート制限があるため、検出の水平スケーリングが困難です。
- これには、潜在的に機密性の高いユーザー生成のプライベートデータを外部の関係者と共有する必要があります。
- 追加の計算によりレイテンシが増加し、外部サービスの呼び出しはプロンプトのサイズに応じて検出にさらなるレイテンシを追加します。
- トレーニングデータセットは必要ありませんが、パフォーマンスのためにプロンプトを評価することは重要です。プロンプトのわずかな変更がパフォーマンスに大きな変化をもたらすことがあります。
- モデル固有のプロンプトエンジニアリングが必要であり、モデル間で適用されない複雑な学習投資がまだ必要になる場合があります。
結論
有害コンテンツの検出は困難ですが重要なタスクです。適切なアプローチを使用することで、有害コンテンツを効果的に検出し、ユーザーを害から保護するシステムを開発することが可能です。大規模言語モデルはNショット分類に役立ち、大規模なトレーニングデータセットの必要性を排除してチームがさまざまな言語で多数の有害コンテンツタイプを検出するための分類器を迅速に立ち上げるのに役立ちます。一方、小さいモデルを使用した教師あり検出は、低レイテンシ、低コスト、インハウスでスケーラブルに実行するのに役立ちます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles