AIバイアス:課題と解決策

AIバイアスの課題と解決策

AIモデルに偏りのあるトレーニングデータが与えられると、結果も偏ることになります。 ¶ クレジット:thenextweb.com

人工知能(AI)における偏りは新しい問題ではありません。1988年、イギリスの人種平等委員会(現在の平等人権委員会)は、ロンドンのセントジョージ医学校が1982年から1986年にかけて「人種や性別に基づいて差別的に行動したコンピュータプログラムによって」差別を行っていたことを発見しました。入学プロセスを自動化するために設計されたアルゴリズムは、「白人以外の名前」と女性応募者に対してネガティブな重み付けを行っていました。

数十年にわたり、AIの偏りは主に研究者や開発者によって議論される難しい技術的問題でした。しかし、最近では生成型AIの驚異的な普及を受けて、偏りに関する議論が一般の場にも広がっています。その場は活気に満ちており、膨大な量のデータがモデルのトレーニングに使用され、一部の技術はオープンソースであり、他の技術はブラックボックスであり、社会的な分断や不安定な「文化戦争」が対話に緊張感を加えています。

政策立案者たちは動き出しました。欧州連合(EU)の提案するAI法には、透明性や説明性の要素があり、偏りにも影響を与える可能性があります。また、米国では、National Institute of Standards and Technologyが「AIの偏りの特定と管理のための詳細な社会技術ガイダンスの開発に向けたロードマップの最初のステップ」と題する文書を公表しました。

しかし、AIの偏りに対処するための普遍的な基準はまだ存在しません。

最初から埋め込まれた偏り

AIの偏りは、「アルゴリズム、機械学習システム、計算システムに焼き込まれた人間の偏見」と説明されます。Data for Black Lives(D4BL)の創設者でありCEOであるYeshimabeit Milner氏は、「黒人の生活に具体的で計測可能な変革をもたらすためのデータの使用をミッションとする活動家、オーガナイザー、科学者の運動」と自己紹介しています。トレーニングデータに偏りが含まれると、AIモデルの結果も偏ることになります。Milner氏は、「古いコンピュータ科学の格言を使えば、ゴミを入れればゴミが出てくる」と述べています。

Milner氏によれば、偏りは単に認識に関するものではなく、政策に根付いてから「コードに焼き込まれる」とも説明しています。彼女は、FICOが1989年に導入したMLパワードのクレジットスコアリングでの米国の郵便番号の使用例を挙げ、これが黒人コミュニティに不利な影響を与えていると指摘しています。クレジットスコアリングには人種の変数はありませんが、郵便番号システムは、1930年代の赤線地域や人種差別政策を反映しており、人種の代替となることがあります。Milner氏は、「郵便番号は人種の代理変数となっています。どこに住んでいるか、郵便番号を尋ねれば、合理的な疑いを超えて彼らの人種を予測することができます」と説明しています。

George Mason UniversityのCenter for Advancing Human-Machine Partnershipの共同ディレクターであり、ACMの人工知能特別利益グループ(ACM SIGAI)の議長であるSanmay Das氏は、Milner氏と同様にMLクレジットスコアリングを偏りの落とし穴の例として挙げ、AIが社会にますます浸透するにつれて、データのギャップが問題を加えると述べています。これらのギャップは、特定のグループについてのデータ収集プロセス中に軽視されたり除外されたりした場合、または特定のグループに関するデータが単に存在しない場合に発生します。そのようなデータでトレーニングされたモデルは、その結果として偏ったまたは歪んだ結果を生み出す可能性があります。

Das氏によれば、AIの研究者は「社会科学者ほど」サンプルについて考えることができず、速度と便利さのためにWebスクレイピングに頼ることがよくあります。彼は、「チャットボットをトレーニングするためにWeb上で起こっているすべてをスクレイピングすれば、人間の社会全体とは非常に異なるものが得られるでしょう。」と説明します。Das氏によれば、英語のコンテンツや彼が「有毒なチャットルーム」と呼ぶもので生成されたコンテンツは、オンラインでの大量のコンテンツのため、過剰に代表される傾向があります。

英国のCreative Computing Instituteの芸術家兼AI研究者であるPhoenix Perry氏は、偏りを「汚染された材料」としての料理の準備に喩えます。この場合、データという「材料」が、オンライン上の人種差別、性差別、トランスフォビアなどの偏見に満ちています。「データや ‘材料’ が欠陥を持っている場合、計算の力や高度な機械学習でも、生じる結果を修正することはできません。この汚染された出力は、有害な社会的な偏見を反映し、それらの存在を持続させます」とPerry氏は述べています。

トレーニングデータがバイアスを持っていなくても、モデルトレーナー自身のバイアスによる問題が生じることがあります。これは、AIの分野で働く男性よりも女性の割合が低いことによってさらに悪化するという問題があります。東京大学未来イニシアティブ研究所とRIKEN先端人工知能プロジェクトの江間亜里紗氏は、「社会構造の中のこのバイアスは、デザイナーコミュニティやアルゴリズム・データの選択にもバイアスを生み出しています。」と述べています。

良質なデータと基盤

もしバイアスが「組み込まれている」のであれば、どのように対処すれば良いでしょうか。

一部の解決策は、セクターに焦点を当てたアプローチを取っています。イギリスのバーミンガム大学病院NHS財団信託およびバーミンガム大学の研究者をリーダーとするSTANDING Togetherプロジェクトチームは、より多様なデータセットのための基準を開発しています。これにより、AI医療領域において社会をより良く表現できるようにしています。

法的な文脈では、ギリシャのCentre for Research and Technology Hellas(CERTH)、ベルギーのCentre for IT and IP Law、および英国の倫理的AI専門家Trilateral Researchのチームが、ACMの2022 FAccTカンファレンスで公開した新しいアプローチにより、法執行機関におけるアルゴリズムのバイアスを軽減するための公正感知型MLを開発しました。研究者たちは、既存のデータの分析中に特定した人種に関するバイアスに対処するために、合成生成されたサンプルを使用して「よりバランスの取れたデータセット」を作成しました。

Milnerによれば、解決策はコミュニティの関与とデータ収集の再考にあります。この点で、D4BLは変革を促すことで実績を持っています。パンデミック中、チームは黒人に対するCOVID-19の不均衡な影響を調査するために、州レベルの人種別データの公開を求めました。また、ボランティアのデータサイエンティストと協力して、そのためのコードベースを構築しました。「COVID-19データを公開したすべてのオープンデータポータルは、実際に州ごとの黒人コミュニティの死亡率と感染率のリアルタイムの更新を自動的に提供しました。それは非常に強力なツールでした」と彼女は述べています。

Milnerは、AIがもたらす「驚異的な進歩」について楽観的です。しかし、誰もが利益を得るためには、データの力を「人々の手に戻す」必要があると彼女は言います。彼女は、AIについての議論はエリート的なものである傾向があると述べ、解決策は基盤となる組織と「意思決定をするキャラクター」を変えることを意味すると述べています。「それは、科学者アクティビスト、黒人コミュニティ、科学コミュニティの運動を築くことによって、文字通り人々をテーブルに招待することです」とMilnerは述べています。

芸術家として、Perryは新しい視点をもたらし、バイアスと創造的な文脈でのAIの人間的影響を緩和するために、小規模なデータセットの使用を提唱しています。「これらのデータセットのユニークな利点は、非常に個人的な性質を持っていることです」とPerryは述べており、また、ソーシャルメディアで既に現れている利益のためのバイアスの使用を制限するための形式的な規制も支持しています。

Stability AIの創設者兼CEOであるEmad Mostaqueも小規模なデータセットの利点を指摘しています。最近、BBCの「Sunday with Laura Kuenssberg」に出演した際、Mostaqueは「インターネット全体をクロールするのではなく、高品質に編集され、人類の多様性を反映した国内のデータセットを使用してください。これらのモデルはより安定し、人間との調和を保つ可能性が高いです」と述べました。

Dasは、Perryと同様に規制の必要性を認めています。「企業は、世界に出すものや行うことについて一定の監視を受ける必要があります」と彼は述べており、医薬品開発や遺伝子工学の分野に既に存在する規制システムを例に挙げています。「適切なセーフガードを奨励することができる、何らかの手段を持った装置を考える必要があります」と彼は言います。

データ収集とモデルトレーニングの新しいアプローチ、AIバイアスの増加する規制は確実になるでしょう。ただし、開発者や政策立案者が進歩のスピードに遅れを取らないかどうかは不確かです。

Karen Emslieは、場所にとらわれないフリーランスのジャーナリストおよびエッセイストです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

PyRCAをご紹介します:AIOpsにおけるRoot Cause Analysis(RCA)のために設計されたオープンソースのPython Machine Learningライブラリです

人工知能(AI)および機械学習の分野は、その信じられないほどの能力とほとんどすべての産業での使用例のおかげで急速に進化...

AI研究

NVIDIA AI研究者が提案するTied-Lora 低ランクアダプテーション(LoRA)メソッドのパラメータ効率を向上させるための画期的な人工知能アプローチ

Nvidiaの研究者グループが、Tied-LoRAと呼ばれる新しい技術を開発しました。この技術は、Low-rank Adaptation(LoRA)手法の...

機械学習

説明可能AI(XAI)

こんにちは、テクノフィルと好奇心旺盛な皆さん人工知能の本の次の章へようこそ人工知能の謎に更に深く入り込んでいきましょ...

機械学習

「5つのオンラインAI認定プログラム - 研究と登録」

「世界的に認められたAIの認定コースを受講し、AIのスキルを身につけ、複数の人工知能の仕事に応募できる資格を取得しましょ...

データサイエンス

サムスンはAIとビッグデータを採用し、チップ製造プロセスを革新します

世界的なメモリチップメーカーであるSamsung Electronics Co.は、最先端の人工知能(AI)とビッグデータ技術を活用して、チッ...

AIニュース

「Amazon SageMakerを使用して、効率的にカスタムアンサンブルをトレーニング、チューニング、デプロイする」

「人工知能(AI)は、テクノロジーコミュニティで重要かつ人気のあるトピックとなっていますAIが進化するにつれて、さまざま...