「ステレオタイプやディスインフォメーションに対抗するAIヘイトスピーチ検出」
AI Hate Speech Detection to combat stereotypes and disinformation.
今日、インターネットはグローバルなコミュニケーションと接続の命脈となっています。しかし、この前例のないオンラインのつながりによって、私たちは人間の行動の暗い面、つまりヘイトスピーチ、ステレオタイプ、有害なコンテンツも目撃しています。これらの問題はソーシャルメディア、オンラインフォーラム、その他の仮想空間に浸透し、個人や社会に持続的な被害をもたらしています。そのため、ヘイトスピーチの検出が必要です。
ピュー研究センターによると、アメリカの成人の41%がインターネットの虐待に直面したことがあるとし、25%が深刻な嫌がらせの被害者です。
よりポジティブで尊重されるオンライン環境を育むためには、積極的な手法を採用し、テクノロジーの力を活用することが重要です。この点で、人工知能(AI)はヘイトスピーチやステレオタイプの検出と対処に革新的な解決策を提供します。
現在の緩和技術の制約と積極的な手法の必要性
ヘイトスピーチを緩和する現在の手法は限定的です。有害なコンテンツのオンラインでの拡散を効果的に抑制することはできません。これらの制約には以下のようなものがあります:
- 「Mozilla Common Voiceにおける音声言語認識 — 音声変換」
- スタビリティAIが日本語のStableLMアルファを発表:日本語言語モデルの飛躍的な進化
- PlayHTチームは、感情の概念を持つAIモデルをGenerative Voice AIに導入しますこれにより、特定の感情で話しの生成を制御し、指示することができるようになります
- 反応型の手法は、人間のモデレーションと静的なアルゴリズムに依存しており、ヘイトスピーチの急速な拡散に対応するのが困難です。
- オンラインコンテンツの膨大な量は、人間のモデレーターを圧倒し、遅れた対応や有害なレトリックの見落としを引き起こします。
- また、文脈の理解と進化する言語のニュアンスは、自動システムがヘイトスピーチのインスタンスを正確に特定し解釈する上で課題となります。
これらの制約に対処し、より安全なオンライン環境を育むためには、積極的な手法への転換が不可欠です。AIを活用した手法を採用することで、デジタルコミュニティを強化し、包括性と結束のあるオンライン世界を促進することができます。
AIを使用したヘイトスピーチの特定とフラッグ付け
ヘイトスピーチに対する闘いで、AIは強力な味方として登場し、機械学習(ML)アルゴリズムによって有害なコンテンツを迅速かつ正確に特定しフラッグ付けすることができます。大量のデータを分析することによって、AIモデルはヘイトスピーチに関連するパターンや言語のニュアンスを学習し、攻撃的なコンテンツを効果的に分類・対応することができます。
正確なヘイトスピーチの検出のためにAIモデルをトレーニングするためには、教師あり学習と教師なし学習の技術が使用されます。教師あり学習では、ヘイトスピーチと非有害なコンテンツのラベル付きの例を提供して、モデルにそれらのカテゴリを区別することを教えます。一方、教師なしおよび半教師あり学習の手法では、ラベル付きのデータを使用せずに、モデルがヘイトスピーチの理解を深めるためにラベルなしのデータを活用します。
ヘイトスピーチと戦うためのAIを活用したカウンタースピーチの技術
カウンタースピーチは、有害なナラティブに直接挑戦し対処することでヘイトスピーチと戦うための強力な戦略として浮上しています。それは共感、理解、寛容を促進するための説得力のある情報を生成することを含みます。個人やコミュニティは、積極的にポジティブなデジタル環境を作り出すことができます。
個々のカウンタースピーチモデルの具体的な詳細は、AI技術と開発手法に基づいて異なる場合がありますが、一部の共通の特徴と技術には以下のようなものがあります:
- 自然言語生成(NLG): カウンタースピーチモデルは、NLGを使用して、書かれた形式または話された形式で人間のような応答を生成します。応答は特定のヘイトスピーチのインスタンスに適切な文脈で関連性があります。
- 感情分析: AIのカウンタースピーチモデルは、ヘイトスピーチの感情的なトーンを評価し、それに応じて応答を調整します。これにより、カウンタースピーチは効果的かつ共感的なものとなります。
- 文脈の理解: ヘイトスピーチを取り巻く文脈を分析することで、カウンタースピーチモデルは特定の問題や誤解に対応する応答を生成することができ、より効果的で焦点の絞られたカウンタースピーチに貢献します。
- データの多様性: 偏見を避け、公平性を確保するために、カウンタースピーチモデルは、異なる視点や文化的ニュアンスを表す多様なデータセットでトレーニングされます。これにより、包括的で文化的に敏感な応答が生成されます。
- ユーザーフィードバックからの学習: カウンタースピーチモデルは、ユーザーフィードバックから学習することで、継続的に改善することができます。このフィードバックループにより、モデルは実際の相互作用に基づいて応答を洗練させ、時間の経過と共にその効果を高めることができます。
AIを使用したヘイトスピーチと戦う例
AIカウンタースピーチ技術の現実の例として、GoogleのJigsawとMoonshot CVEが開発した「Redirect Method」があります。Redirect Methodは、標的型広告を使用して、過激なイデオロギーやヘイトスピーチに影響を受けやすい個人に到達しようとします。このAIを活用した手法は、有害なコンテンツへの関与を避け、共感、理解、過激な信念からの転換を促すことを目指しています。
研究者は、IEEE Transactions on Computational Social Systemsに報告されたところによると、BiCapsHateという新しいAIモデルを開発しました。このモデルはオンラインでの憎悪表現に対する強力なツールとして機能し、言語の双方向分析をサポートして、憎悪的なコンテンツの正確な判断のための文脈理解を向上させます。この進歩により、憎悪表現がソーシャルメディアに与える損害を軽減し、より安全なオンラインのやり取りの可能性を提供することを目指しています。
同様に、ミシガン大学の研究者は、ルール・バイ・エグザンプル(RBE)と呼ばれるアプローチを用いて、オンラインの憎悪表現との戦いにAIを活用しています。このアプローチでは、深層学習を用いて、憎悪表現を分類するルールを学習します。これらのルールは、入力テキストに適用され、オンラインの憎悪表現を正確に識別および予測します。
憎悪表現検出モデルにおける倫理的考慮事項
AIによる対話モデルの効果を最大化するためには、倫理的な考慮が最重要です。ただし、有害なコンテンツの拡散を防ぐためには、表現の自由と禁止のバランスを取ることが重要です。
AIによる対話モデルの開発と展開における透明性は、ユーザーと関係者の信頼と責任を育むために不可欠です。また、公正さを確保することも同様に重要であり、AIモデルの偏見は差別や排除を助長する可能性があります。
たとえば、憎悪表現を特定するために設計されたAIは、偶然にも人種的なバイアスを増幅することがあります。研究によれば、主要な憎悪表現AIモデルは、アフリカ系アメリカ人のツイートを攻撃的としてフラグ付けする可能性が通常の1.5倍高いことがわかりました。また、アフリカ系アメリカ人英語で書かれたツイートを憎悪表現としてフラグ付けする可能性は通常の2.2倍高いです。155,800件の憎悪表現に関連するTwitter投稿の研究でも同様の証拠が浮かび上がり、AIコンテンツモデレーションにおける人種的なバイアスの課題を示しています。
別の研究では、4つのAIシステムを憎悪表現の検出にテストし、すべてが有害な文を正確に識別するのに苦労していることがわかりました。これらの憎悪表現検出モデルの正確な問題を診断するために、彼らはスラーや脅迫的な言葉を含む18種類の憎悪表現の分類法を作成しました。また、非攻撃的な文に悪態をつくといった11のシナリオを強調しました。その結果、研究ではHateCheckというオープンソースのデータセットを作成しました。これにより、AIモデルの憎悪表現に対する理解を向上させることを目指しています。
意識とデジタルリテラシー
憎悪表現や固定観念に対抗するには、積極的かつ多角的なアプローチが求められます。したがって、意識を高め、デジタルリテラシーを促進することが、憎悪表現や固定観念に対抗する上で重要です。
有害なコンテンツの影響について個人に教育することは、共感と責任あるオンライン行動の文化を育むために重要です。批判的思考を促す戦略によって、ユーザーは合法的な議論と憎悪表現を区別し、有害なナラティブの拡散を減らすことができます。また、ユーザーに憎悪表現を識別し、効果的に対応するスキルを身につけることは重要です。これにより、有害なレトリックに挑戦し、カウンターする力を与えることができ、より安全で敬意を払ったデジタル環境に貢献します。
AI技術が進化するにつれて、憎悪表現や固定観念に対処するための精度と影響力が指数関数的に向上する可能性があります。したがって、AIによる対話モデルを共感とポジティブなオンラインエンゲージメントを促進する有力なツールとして確立することが重要です。
AIのトレンドや技術に関する詳細な情報は、unite.aiをご覧ください。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 大規模言語モデルは、テキスト評価のタスクで人間を置き換えることができるのか? このAI論文では、テキストの品質を評価するためにLLMを使用し、人間の評価の代替手段として提案しています
- 「簡単な英語プロンプトでLLMをトレーニング!gpt-llm-trainerと出会って、タスク固有のLLMをトレーニングする最も簡単な方法」
- 「Flowsに会いましょう:複雑なAI-Humanの相互作用をモデル化するための革命的なAIフレームワーク」
- ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!
- GAN(Generative Adversarial Networks)
- 「Amazon SageMaker JumpStartを使用したゼロショットテキスト分類」
- 「機械学習に人間のミスを組み込む」