機械学習の専門家 – マーガレット・ミッチェル

機械学習の専門家 - マーガレット・ミッチェル

みなさん、こんにちは！Machine Learning Expertsへようこそ。私は司会のBritney Mullerです。今日のゲストは、マーガレット・ミッチェル（通称メグ）です。メグはGoogleのEthical AIグループの創設者兼共同リーダーであり、機械学習の分野でのパイオニアであり、50以上の論文を発表しているだけでなく、Ethical AIの分野でのリーディングリサーチャーでもあります。

メグがエシカルAIの重要性に気づいた瞬間（素晴らしいストーリー！）、MLチームが有害なデータバイアスにより意識的になる方法、およびMLにおける包括性と多様性の力（およびパフォーマンスの利点）について話すことができます。

このパワフルなエピソードをご紹介できることをとても楽しみにしています！こちらがメグ・ミッチェルとの対談です：

転写：

注：転写はわかりやすい読みやすさを提供するためにわずかに修正/再フォーマットされています。

Dr. マーガレット・ミッチェルの経歴：

Reed Collegeで言語学の学士号を取得 – NLPに取り組んだ
学士号取得後、補助および補完技術に取り組み、修士課程中も同様に研究
ワシントン大学で計算言語学の修士号を取得
コンピュータサイエンスの博士号を取得

メグ：私はJohns Hopkinsでポスドクとして統計的な研究を行い、その後、Microsoft Researchに移り、ビジョンから言語生成に取り組み、盲目の人々が世界をより簡単に移動できるようにするSeeing AIというアプリに取り組んでいました。

Microsoftで数年過ごした後、ディープラーニングに固有のビッグデータの問題に焦点を当てるためにGoogleで働くために退社しました。そこで、公平性、さまざまな問題に対する厳格な評価、およびバイアスの問題に焦点を当てるようになりました。GoogleでEthical AIチームを共同設立し、包括性と透明性に焦点を当てています。

Googleで4年間働いた後、私はHugging Faceに移籍し、コーディングに集中することができました。私は、Ethical AI研究のためのプロトコルの作成、包括的な採用、システムの構築、そしてHugging Faceでの良い文化の確立に貢献しています。

Ethical AIの重要性に気づいたのはいつですか？

メグ：これは私がMicrosoftでSeeing AIという支援技術に取り組んでいたときに発生しました。一般的に、私は画像から言語を生成する作業をしていましたが、データがどれだけ偏っているかに気付きました。データは世界の一部を表し、モデルが何を言うかに影響を与えます。

そのため、白人を「人」として説明し、黒人を「黒人」として説明するような問題に直面しました。まるで白人がデフォルトで黒人が特徴になっているかのような描写です。それは私にとって懸念材料でした。

また、私がシステムに画像のシーケンスを入力し、何が起こっているかのストーリーについてもっと話させるようにしたときにも「あっ」という瞬間がありました。私は、この「Hebstad blast」という多くの人々が働く大規模な爆発の画像をいくつかシステムに入力しました。写真を撮っている人は、爆発を見るために2階または3階にいることがわかります。爆発はこの人に非常に近い距離にありました。非常に深刻で強烈な瞬間でしたが、システムの出力は「これは素晴らしい、これは素晴らしい景色だ、美しい」というものでした。私は思いました…これは恐ろしいシーンの素晴らしい景色ですが、重要なのは人々が死んでいるかもしれないということです。これは大規模な破壊的な爆発です。

しかし、画像から学習する際、人々はひどいことの写真を撮る傾向はありません。彼らは日没、花火などの写真を撮ります。視覚認識モデルはこれらの画像で学習し、空の色がポジティブで美しいものだと信じていました。

その瞬間、私は、そのような考え方を持つモデルがアクションにアクセスできる場合、建物を爆破するシステムからはわずか1ステップしか離れていないと気づきました。

私はこれまでこれらのシステムをベンチマークでより良くすることを続けたくないと感じ、私たちがこれらの問題をどのように見ているか、データとデータ分析へのアプローチ、評価方法、およびこれらの単純なパイプラインで見逃しているすべての要素を根本的に変えたいと思いました。

それが私が倫理的なAIの仕事に移行したきっかけでした。

データ倫理が最も重要なのはどのようなアプリケーションですか？

Meg: 人とアイデンティティに関わる人間中心の技術（顔認識、歩行者認識）です。NLPでは、これは個人のプライバシー、個人について話される方法、モデルが人々について使用する記述子に関連するバイアスを指します。

MLチームはどのように有害なバイアスに対してより意識を向けることができますか？

Meg: 主な問題は、これらの概念が教えられていないことであり、ほとんどのチームが単純に気づいていないことです。別の問題は、何が起こっているのかを文脈化し、伝えるための語彙が不足していることです。

例えば：

これが弱者化とは何か
これが権力の差とは何か
これが包摂性とは何か
こういったステレオタイプがどのように機能するか

これらの柱をより良く理解することは非常に重要です。

別の問題は、機械学習の文化です。これは「アルファ」または「マッチョ」のアプローチを取っており、焦点は「前の数値を上回ること」「より速くすること」「より大きくすること」などになっています。人間の解剖学との類似点が多く見られます。

また、非常に敵対的な競争心があり、女性が不釣り合いにも少なく扱われることがあります。

女性はしばしば差別に詳しいため、AI内で倫理、ステレオタイプ、性差別などについてさらに焦点を当てています。そのため、これは女性に関連づけられ、それだけで重要視されず、文化を浸透させるのが難しくなります。

私は一般的に技術的でないと思われています。それは私が何度も何度も証明しなければならないことです。私は言語学者、倫理学者と呼ばれますが、これらは私が関心を持ち、知識を持っていることですが、それは重要ではないと扱われます。人々は「プログラムを書かない、統計に詳しくない、重要ではない」と言ったり考えたりすることがよくあり、私が技術的なことについて話し始めない限り、人々は私を真剣に受け止めません。それは残念なことです。

機械学習には非常に大きな文化的な障壁があります。

多様性と包摂性の不足は全員にとって損失です

Meg: 多様性は、テーブルに多くの人種、民族、性別、能力、地位が揃っている状態です。包摂性は、各人が話すことに快適で、歓迎される状態です。

包摂的であるためには、排他的でないことが非常に重要です。非常に明らかなことですが、しばしば見落とされます。人々は、彼らが役に立たない、迷惑だと感じる、または攻撃的だと感じるために会議から除外されることがあります（これはさまざまなバイアスの機能です）。包摂的であるためには、排他的でないようにしなければなりません。したがって、会議のスケジュールを立てる際には、招待する人々の人口統計を注意深く確認する必要があります。もし会議が全員男性だけである場合、それは問題です。

電子メールに含める人々の人口統計について、より意識的かつ意図的になることは非常に価値があります。しかし、技術業界では、多くの会議が全員男性であり、そのことについて指摘すると非常に敵対的な反応が得られることがあります。人々を含める側に立つことが重要です。

私たちは皆バイアスを持っていますが、いくつかのパターンを打破するための戦術があります。メールを書く際には、その人の性別や人種に目を通して包摂的であることを確認します。それは非常に意識的な努力です。このような人口統計データを考えることは役立ちます。ただし、メールを送る前や会議をスケジュールする前にこれについて言及してください。事後にこれらのことを言及すると、人々の反応はあまり良くありません。

AIにおける多様性 – MLプロジェクトに多様な人材を携わらせることで、より良い結果が得られるという証拠はありませんか？

Meg: はい、異なる視点を持つため、異なるオプションの分布を持つため、より多くの選択肢があります。機械学習の基本的な側面の1つは、トレーニングを開始する際にランダムな出発点とサンプリングする分布の種類を使用することができることです。

ほとんどのエンジニアは、最適な局所解を見つけるために分布の一部からサンプリングすることは望ましくないと同意できます。

テーブルに座っている人々にこのアプローチを翻訳する必要があります。

異なる開始状態に対してガウス分布のアプローチを持ちたいように、プロジェクトを始めるときにもテーブルでそれを持ちたいです。なぜなら、それによってより大きな探索空間が得られ、局所的な最適解を獲得しやすくなるからです。

モデルカードについて話し、そのプロジェクトがどのように生まれたかについて説明できますか？

Meg: このプロジェクトは、私が公正さと公正な評価の厳密な評価に取り組み始めたときにGoogleで始まりました。

それを行うためには、コンテキストの理解とそれを使用する人々の理解が必要です。これは、モデルのバイアスにどのようにアプローチするかに関わるものであり、それにはあまり関心が寄せられていませんでした。

私は当時、同じような興味を持つ人物であるTimnit Gebruと話していました。彼女はデータの種類に基づくデータのドキュメント化（彼女のAppleでの経験に基づく）について話していました。ハードウェアの仕様があるように、データにも同様のものが必要だと。

そこで、Timnitはデータセット用のデータシートというアイデアを持っていました。技術の人々がそれに関心を持つようにするために、この「アーティファクト」を持つことは非常に重要だと思いました。したがって、このアーティファクトを作成する必要があり、それがローンチの一環として扱われると、人々はより意欲を持って取り組むようになるでしょう。

名前を考えるとき、データシートに対応する単語として、モデルに使用できる比較的短い「カード」という単語を選びました。また、名前を「モデルカード」としたのは、その名前が非常に一般的であり、長期的に有効であると判断したからです。

Timnitの論文は「データセットのデータシート」というタイトルでした。したがって、私たちは「モデルレポート用のモデルカード」と呼びました。そして、私たちが論文を公開した後、人々は私たちをより真剣に受け止めるようになりました。Timnit Gebruの素晴らしい提案がなければ、これはできませんでした。

モデルカードはどこに向かっていますか？

Meg: 倫理に基づいたモデルカードを作成するのには、かなりの障壁があります。なぜなら、これを埋める必要がある人々は、しばしばエンジニアや開発者であり、自分のモデルをローンチしたいと考えているため、ドキュメンテーションや倫理について考えることを避けたいからです。

Hugging Faceに参加した理由の一部は、これらのプロセスができるだけ自動化され、標準化される機会を得ることでした。Hugging Faceが好きな点の一つは、できるだけスムーズなエンドツーエンドの機械学習プロセスを作成することに焦点を当てていることです。モデルカードでも同様のことをしたいと思っています。異なる質問やモデルの仕様に基づいて、ほぼ自動生成されるものを作成できればと考えています。

私たちは、モデルカードを可能な限り埋めることと、対話的にすることを目指しています。対話性により、意思決定のしきい値を変更すると偽陰性率の変化がわかるようになります。通常、分類システムでは、0.7のようなしきい値を設定して「はい」または「いいえ」と言いますが、実際には異なるエラーをトレードオフするために、意思決定のしきい値を変えたいと思うことがあります。

動作がどれくらい良いかを示す静的なレポートは、望んだように情報提供をしてくれません。システムで使用する意思決定のしきい値を決定するために、異なるしきい値を選択した場合の動作を知りたいのです。そのため、意思決定のしきい値を対話的に変更し、数値の変化を確認できるモデルカードを作成しました。さらなる自動化と対話性に向かって進んでいくことが重要です。

意思決定のしきい値とモデルの透明性

Meg: Amazonが初めて顔認識と顔解析技術を導入した時、黒人女性に対する性別分類の性能が著しく悪いことがわかりました。Amazonは「これは間違った意思決定のしきい値を使用して行われた」と言って対応しました。そして、これらのシステムの1つを使用していた警察機関の一つが、どのような意思決定のしきい値を使用していたか尋ねられたとき、「ああ、私たちは意思決定のしきい値を使用していません」と答えたのです。

これは、あなたが本当にこのシステムの動作方法を理解していないことを意味し、デフォルト設定でこのシステムを使っているのですか？それは問題です。したがって、少なくともこのドキュメンテーションを持つことで、さまざまなタイプのパラメータに関する意思決定に関する認識を高めることができます。

機械学習モデルは、他の公開物とは異なるのです。おもちゃや医薬品、車は、製品が安全で意図どおりに機能するようにするためのさまざまな規制があります。機械学習にはそれがありません。それは新しいものなので、まだ法律や規制が存在しないからです。それはまるで西部劇のようなものであり、それをモデルカードで変えようとしているのです。

Hugging Faceで何に取り組んでいますか？

エンジニア向けのいくつかの異なるツールに取り組んでいます。
哲学と社会科学の研究に取り組んでいます。UDHR（人権宣言）について詳しく調査し、AIとの関連性について検討しています。AI、機械学習、法律、哲学の間のギャップを埋めるために努力しています。
システムのテストやデータセットの理解に役立つ統計的な手法の開発にも取り組んでいます。
最近、自然言語の傾向（Zipfの法則）にどれだけ適合するかを示すツールも公開しました。モデルが自然言語とどれだけ適合しているかをテストすることができます。
文化的な取り組みにも多くの時間を費やしています。多様性をより重視するために、採用やプロセスについても取り組んでいます。
Big Scienceにも取り組んでいます。Hugging Faceだけでなく、世界中の人々が参加する大規模なデータガバナンスの取り組みです（大量のデータを世界中に広めずに、どのように使用・検証するか）。
時々、インタビューや議員との会談も行っていますので、業務内容は多岐にわたります。
時々、メールの返信も試みます。

注：Hugging Faceの全員が多くの役割を果たしています。:)

MegのAIへの影響

Megは『Genius Makers』という書籍に登場しており、「Google、Facebook、そして世界にAIをもたらしたマーベリックたち」というタイトルで紹介されています。Cade MetzがGoogle在籍時にMegに取材しました。

Megの先駆的な研究、システム、そして業績はAIの歴史において重要な役割を果たしています（Hugging FaceにMegがいることは本当に幸運です！）

クイックファイアの質問：

AIに参入しようとする人にとっての最良のアドバイスは何ですか？

Meg: その人の特徴によります。もしもそれが社会的に弱い立場にいる女性だった場合、私は「上司があなたがこれに向いていないと言っても聞かないでください。おそらくあなたは彼らとは異なる視点で物事を考えているだけなので、自信を持ってください。」とアドバイスします。

もしもそれが社会的に有利な立場にいる人ならば、私は「パイプラインの問題を忘れて、周りの人々に注意を払い、現在のパイプラインがより問題にならないようにサポートしてください。」と言います。

また、「自分のシステムを評価してください。」

どのような産業に機械学習が適用されることに最も興奮していますか（または機械学習倫理が適用されることに最も興奮していますか）

Meg: 健康や支援の領域は私が非常に関心を持っており、多くの可能性があると考えています。

また、人々が自分自身の偏見を理解するのを助けるシステムも見たいです。多くの技術が作られていますが、それは求職者の選考に使用されるものです。しかし、私はその技術が実際には面接官と彼らがどのように異なる偏見を持っているかに焦点を当てるべきだと考えています。人々を排除するためではなく、人間が包括的になるのを支援するための技術がもっとあればいいと思います。

あなたはキーノートやインタビューでバイアスのあるモデルの素晴らしい例を頻繁に取り上げています。特に、私が好きなのは、口の角度のパターンを使用して犯罪者を特定しようとした犯罪検知モデルの話です（そして、あなたがすばやく否定したものです）。

Meg: はい、（その例は）彼らが犯罪者を特定するためにより小さな角度のθをより示唆的なものとして主張していたのですが、私はその数学を見て、彼らが実際に話していたのは「笑顔」であることに気づきました！笑顔の場合はより広い角度があり、真顔の場合はより小さい角度があります。彼らは実際に何を捉えていたのかを見失っていました。実験者のバイアス：存在しないものを見つけたいという願望です。

AIが世界を支配することを恐れるべきですか？

メグ：AIにはたくさんの恐れがあります。私はそれを、さまざまな結果の分布を持っていると見ています。いくつかは他のよりポジティブなものですが、私たちが知ることができる一つの設定はありません。AIはさまざまなことに非常に役立つ場面があり、タスクベースのものよりも一般的な知性に優れています。モデルが破壊的なものを美しいと思うようになることは、ミサイルを発射するボタンを押す能力を持つシステムから1歩離れたところにあるかもしれません。人々が恐れる必要はないとは思いませんが、ベストケースとワーストケースのシナリオを考え、最悪の結果を緩和または阻止することを考えるべきです。

現在最も重要なことは、これらのシステムが「持っている人」と「持っていない人」の間の格差を広げる可能性があるということです。権力を持つ人々にさらなる権力を与え、持たない人々にとっては状況をさらに悪化させる可能性があります。これらのシステムを設計する人々は、一般的に権力と富を持つ人々であり、彼らの利益に合わせて設計しています。これは現在進行中のことであり、将来について考えるべきです。

願わくば、私たちは最も有益なことに焦点を当て、その方向に進み続けることができるといいです。

お気に入りの機械学習論文はありますか？

メグ：最近では、Abeba Birhaneが機械学習にエンコードされた価値に取り組んでいることが本当に気に入っています。私自身のチームでは、Googleでデータの系譜に取り組んでおり、MLデータの取り扱いについての批判的な分析を行っています。彼らはいくつかの論文を発表しており、例えば「データとその（非）内容：機械学習研究におけるデータセットの開発と使用の調査」というものがあります。その仕事が本当に好きで、私のチームや直属の部下が含まれているため偏見があるかもしれませんが、それは本質的に優れた仕事です。

以前に興味を持っていた論文は、私が当時行っていたことを反映しています。心理言語学/コミュニケーションの専門家であるHerbert Clarkの仕事が本当に好きで、人間のコミュニケーションについての計算モデルに簡単に適応できる仕事をたくさん行っています。彼の仕事が本当に好きで、私の論文中でもよく引用しています。

他に何かお伝えしたいことはありますか？

メグ：私が取り組んでいることの一つは、異なる学問的バックグラウンドを持つ人々に対してAIの参入障壁を下げることです。

私たちは技術を開発する人々がたくさんいますが、技術に疑問を持つことができる状況にいる人々はほとんどいません。その理由は、しばしばボトルネックが存在するからです。

たとえば、データについて直接知りたい場合、サーバーにログインしてSQLクエリを書くことができる必要があります。したがって、エンジニアがそれを行わなければならず、その障壁を取り除きたいのです。技術的なコードの部分を取り出し、プログラムの知識がなくてもデータに直接問い合わせることができるようにする方法は何でしょうか。

私たちは、エンジニアが媒介者として必要な障壁を取り除くと、より良い技術を作り出すことができるでしょう。

アウトロ

ブリトニー：メグは時間に追われていましたが、最後の質問をオフラインで聞くことができました。最近興味を持っていることは何ですか？メグの回答は「合成/制御環境での植物の増殖と成長方法」です。彼女がますます素晴らしくなると思っていたときに限って、ですね。

最後に、メグの科学ニュースの記事での引用を紹介します。それは「最も緊急な問題は、最初からテーブルに座っている人々の多様性と包含です。他のすべての問題はそこから生じるものです。」-メグ・ミッチェルです。

機械学習の専門家を聞いていただき、ありがとうございました！

名誉ある言及とリンク：

エミリー・ベンダー
エフード・ライター
Abeba Birhane
Seeing AI
データセット用データシート
モデルカード
モデルカードの論文
Abeba Birhane
機械学習研究にエンコードされた価値
データとその（非）内容：
Herbert Clark

メグのオンラインフォロー：

Twitter
ウェブサイト
LinkedIn

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

機械学習の専門家 – マーガレット・ミッチェル