「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」

This Apple AI research investigates known issues related to gender stereotypes in LLMs.

大規模言語モデル（LLM）は、ここ数ヶ月で非常に進歩し、さまざまな分野で最先端のベンチマークを押し上げてきました。大規模言語モデル（LLM）の使用と研究が、特に自然言語処理（NLP）の分野で急速に増加しています。SATやLSAT、医学校の試験、IQテストなどのテストに合格し、さらには優れた成績を収めるだけでなく、これらのモデルは幅広い自然言語タスクで最先端（SOTA）を大幅に上回っています。これらの驚くべき進展により、医療アドバイスからセキュリティアプリケーション、作業アイテムの分類まで、日常のタスクにおいてこのようなモデルを採用し、頼りにすることについて広範な議論が起こっています。

Appleの研究者グループによって提案された新しいテストパラダイムの1つは、現在LLMが使用しているトレーニングデータから排除される可能性のある表現を使用しています。彼らはLLMの意思決定の正当化を調べ、LLMがステレオタイプ自体について明示的な声明をすることが頻繁にあることを発見しました。さらに、文構造や文法に関する主張は、より詳細な調査に耐えないこともあります。LLMの行動は、少なくともLLMの訓練に使用されるデータで符号化された西洋文明の集合知に一致しています。この行動パターンを見つけ、その原因を特定し、解決策を提案することが重要です。

言語習得アルゴリズムのジェンダーバイアス

言語モデルのジェンダーバイアスは、広範に研究され、文化の先入観を反映し、悪化させることが文献で示されています。また、オートキャプション、感情分析、有害性検出、機械翻訳などのNLPタスクだけでなく、さまざまなモデルでジェンダーバイアスが存在することが示されています。ジェンダーは、この偏見の影響を受ける社会的カテゴリーに限定されたものではありません。宗教、肌の色、国籍、障害、職業なども含まれます。

文の理解における無意識のバイアス

人間の文処理の文献でも、いくつかの実験的手法を使用してジェンダーバイアスが広範に文献化されています。要約すると、研究は、テキスト内の名詞のジェンダーカテゴリを知ることが理解を助けること、代名詞が通常被験者を主語として参照することが示されています。そのため、より少ない可能性のシナリオでは文のスコアが低下し、読解速度が低下し、アイ・トラッキング実験での逆行などの予期しない効果が生じる可能性があります。

女性に対する社会的バイアス

今日の文化におけるジェンダーに関する先入観やバイアスの存在と普及を考慮すると、言語モデルの出力にもバイアスが現れることは驚くべきことではないかもしれません。ジェンダーバイアスは、医学や経済学、教育や法律などのさまざまな分野で文献化されていますが、これらの研究結果の完全な調査は本稿の範囲外です。たとえば、さまざまな科目や教育環境でバイアスが見つかったという研究があります。就学前の幼児からもステレオタイプの悪影響を受ける可能性があり、これは自己認識、学業および職業選択、発達の他の領域に持続的な影響を与える可能性があります。

デザイン

研究者は、WinoBiasとは異なるがジェンダーバイアスを調査するための枠組みを考案しました。各研究アイテムには、男性に関連付けられるステレオタイプな職業と女性に関連付けられる職業のペア、および男性的または女性的な代名詞が含まれています。戦略によっては、さまざまな反応が予想されます。また、文の前提条件と関連付けられる語彙要素によって、文によって戦略が異なる場合もあります。

研究者は、WinoBiasの文が複数のLLMのトレーニングデータの一部であると考えているため、自分たちの研究ではそれらを使用しないようにしています。代わりに、前述のパターンに従って15文のスキーマを作成します。また、WinoBiasとは異なり、名詞の選択は米国労働省のデータに基づくのではなく、英語話者の特定の職業を示す名詞が男性寄りまたは女性寄りと見なされる程度についての研究に基づいています。

2023年、研究者は一般に公開されている4つのLLMを調査しました。モデルの設定オプションが多い場合、彼らは工場のデフォルトを使用しました。彼らは代名詞とキャリア選択の関連性について対照的な結果と解釈を提供しています。

研究者は、LLMの動作（ジェンダーニュートラルな代名詞（例：theyや新しい代名詞）の使用（および非使用）など）がトランスジェンダーの個人の現実を反映し、影響する可能性について考慮していません。バイナリのパラダイムの中でこれらの知見が得られたことと、以前の研究からのデータがないことを考慮すると、より多様なジェンダーを含めることがLLMのパフォーマンスにより暗いイメージを描く可能性があると推測されます。ここでは、これらの単純なジェンダーの概念に収まらないマージナライズされた人々に悪影響を及ぼす可能性があるとしながらも、将来の研究がこれらの微妙な関係に焦点を当て、新たな光を当てることに楽観的な姿勢を表明しています。

まとめると

既存の大規模言語モデルが性別バイアスを示しているかどうかを判断するために、研究者は単純なシナリオを考案しました。WinoBiasは、既存のLLMのトレーニングデータに含まれることが期待されている人気のある性別バイアスのデータセットであり、パラダイムはそのデータセットを拡張し、異なるものです。研究者は2023年第1四半期にリリースされた4つのLLMを調査しました。彼らはモデル間で一貫した結果を発見し、彼らの発見が市場に出回っている他のLLMにも適用される可能性があることを示しました。彼らは、LLMが男性と女性についての性差別的な仮定をし、特に人々の男性と女性の職業に関する概念に合致するものであり、実際の状況に基づくものではないことを、米国労働統計局のデータによって明らかにしました。一つの重要な発見は –

(a) LLMは、どの代名詞がどの性別を指している可能性が最も高いかを決定する際に、性別のステレオタイプを使用しました。例えば、LLMは男性を指すために「彼」を使用し、女性を指すために「彼女」を使用しました。

(b) LLMは、女性に関する性別に基づく先入観を男性に比べてより強調しました。LLMは、特に具体的なプロンプトが与えられた場合にこの観察をすることが一般的でしたが、自分自身に任された場合にはあまりしなかったです。

(d) LLMは、自分たちの決定に対して見せかけの正当化をし、それがしばしば間違っており、予測の真の動機を隠している可能性がありました。

これらのモデルのもう一つの重要な特徴が明らかにされました：LLMはバイアスのあるデータで訓練されているため、人間のフィードバックを用いた強化学習を行っていても、そのバイアスを反映し悪化させる傾向があります。研究者は、他の社会的バイアスの形態と同様に、弱者やグループの保護と公平な取り扱いがLLMの開発と教育の中心に置かれるべきだと主張しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

「このAppleのAI研究は、ジェンダーステレオタイプに関するLLMsの振る舞いの既知の問題を調査します」

Was this article helpful?

「AIによって生成されたコンテンツに対して、Amazonの自己出版サービスが厳格な取り締まりを行います」

「データの成熟度ピラミッド：レポートから先進的なインテリジェントデータプラットフォームへ」

AI研究

ツリー構造パーゼン推定器（Hyperopt）を使ったハイパーパラメータのチューニングの向上

「組織のためのカスタマイズされたコーディングパートナー」

オフポリシーモンテカルロ制御を用いた強化学習レーストラックの演習問題の解決

学習曲線の航行：AIの記憶保持との闘い

「AI安全性の議論がシリコンバレーを引き裂いている」

「GPS ガウシアンと出会う：リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」