機械学習の専門家 – Sasha Luccioni

Machine Learning expert - Sasha Luccioni

🤗 マシンラーニングエキスパートへようこそ – サーシャ・ルッチョーニ

🚀 サーシャのようなMLエキスパートがあなたのMLロードマップを加速する方法に興味がある場合は、hf.co/supportを訪れてください。

こんにちは、友達たち！マシンラーニングエキスパートへようこそ。私は司会者のブリトニー・ミュラーで、今日のゲストはサーシャ・ルッチョーニです。サーシャは、Hugging Faceで研究科学者として、機械学習モデルとデータセットの倫理的・社会的影響に取り組んでいます。

サーシャはまた、Big Science WorkshopのCarbon Footprint WGの共同議長、WiMLの理事、そして気候危機に機械学習を適用する意義のある活動を促進するClimate Change AI（CCAI）組織の創設メンバーでもあります。

サーシャがメールの炭素フットプリントを計測する方法、地元のスープキッチンが機械学習の力を活用するのをどのように手助けしたか、そして意味と創造性が彼女の仕事を支える方法についてお話しいただきます。

この素晴らしいエピソードを紹介するのをとても楽しみにしています！以下がサーシャ・ルッチョーニとの私の対話です：

注：転記はわかりやすい読み物を提供するためにわずかに修正/書式設定されています。

今日参加していただき、本当にありがとうございます。私たちはあなたが来てくれたことを非常に嬉しく思っています！

サーシャ： 私もここにいることを本当に嬉しく思っています。

直接本題に入りますが、あなたのバックグラウンドとHugging Faceへの道を教えていただけますか？

サーシャ： ええ、まず最初に私は言語学を勉強し始めました。私は言語に非常に興味があり、両親も数学者でした。しかし、私は数学をやりたくない、言語をやりたいと思いました。私は学部生の頃から自然言語処理（NLP）を始め、それに夢中になりました。

私の博士号はコンピュータサイエンスであり、しかし言語学の視点を持ち続けました。私は人文科学から始めて、その後コンピュータサイエンスに入りました。そして博士号を取得した後、数年間応用AI研究に携わりました。最後の仕事は金融業界であり、ある日AIを利用したAIのための仕事をすることがより良いと思い、仕事を辞める決断をしました。私はAIをAIのためだけにする価値がどんなにお金があってもないと思いました。私はもっとやりたかったのです。そして数年間、Yoshua Bengioと一緒に働きながら、AI for goodプロジェクト、気候変動プロジェクトに取り組みました。そして次の役割を探していました。

私は正しいことをしていて、正しい方向に進んでいると信じられる場所にいたかったのです。ThomとClemに会ったとき、Hugging Faceが私にとっての場所であり、私が探していたものとまさに一致するとわかりました。

意義のあることをしたかったことが素晴らしいです！

サーシャ： そうですね、日曜の夜に「明日は月曜日だなあ…」と言っている人を聞くと、「明日は月曜日！それは素晴らしいことだ！」と思います。私は働き中毒ではありませんが、他のこともしていますし、家族もいますが、本当にクールなことをするために仕事に行くことを楽しみにしています。それは重要だと思います。人々はそれなしで生きることができるかもしれませんが、私はできません。

現在取り組んでいることで一番ワクワクしているのは何ですか？

サーシャ： Big Scienceプロジェクトは間違いなく非常に刺激的だと思います。ここ数年、これらの大規模な言語モデルを見てきましたが、いつも「でもそれってどうやって動くの？」と思っていました。コードはどこにあるの？データはどこにあるの？開発はどのように行われているのか？誰が関与しているのか？それはすべてブラックボックスのようなものでしたが、私たちはついにそれをガラスの箱にしています。多くの人々が関与し、非常に興味深い視点があります。

私は炭素フットプリントのワーキンググループの議長を務めており、環境への影響をはじめとしたさまざまな側面に取り組んでいます。CO2排出量の算出だけでなく、製造コストなどの他の要素も考慮しています。ある時点では、メールが生成するCO2の量さえ考慮しています。異なる視点を考えています。

データについても、私はBig Scienceの多くのデータ作業グループに関与しています。それは非常に興味深いです。通常はできるだけ多くのデータを取得し、言語モデルに詰め込んで、すべてがうまくいくと思っていました。そして、それはたくさんのことを学ぶだろう、しかし実際には、インターネット上には奇妙なものがたくさんありますし、モデルが見ることを望まないようなものもあります。だから私たちは、マインドフルネス、データキュレーション、多言語性についても本当に調査しています。それは単に100%英語ではなく、99%英語でもないことを確認するためです。だから、それは素晴らしい取り組みであり、私は関与することに興奮しています。

メールの炭素フットプリントを評価するアイデアが好きですか！？

サーシャ： はい、添付ファイルの有無によって行う人もいましたが、それは単に、理論物理学のプロジェクトの記事を見つけたからです。彼らはすべてを行いました。ビデオ通話、移動通勤、メール、そして実際の実験も行いました。それから彼らはこの円グラフを作成しました。37のカテゴリがあり、私たちは本当にそれをやりたかったのです。しかし、その詳細レベルまで行きたいかどうかはわかりませんが、調査を行い、参加者に平均してBig Scienceで働いた時間や言語モデルのトレーニングに費やした時間などを尋ねる予定でした。モデルのトレーニングにかかるGPU時間だけでなく、プロジェクトへの関与と参加も把握したかったのです。

AIの環境への影響についてもう少し話していただけますか？

サーシャ： はい、私は3年前に関わり始めたトピックです。最初に出てきた記事は、Emma Strubellと彼女の同僚によるもので、彼らは大規模な言語モデルをハイパーパラメータのチューニングでトレーニングしました。つまり、さまざまな設定を見て、そのAIモデルが彼らの一生で5台の車と同じくらいの炭素を排出したという数字を得ました。ガソリンを含む、平均的な消費量です。私たちの同僚と一緒に、「それはおかしい、すべてのモデルではないはずだ」と考えたので、私たちは本当に排出に影響を与える要素や、排出をどのように測定できるかを調査しました。

まず、オンラインの計算機を作成しました。そこで、誰かが使用しているハードウェアやトレーニングにかかった時間、場所（自分の場所またはクラウドコンピューティングインスタンス）を入力すると、関連する炭素の推定値が表示されます。これが最初の試みでした。そして、私たちは「コードカーボン」というパッケージを作成しました。これは実際にリアルタイムで同様の計算を行います。つまり、モデルをトレーニングしているときに並行して実行され、最後に炭素排出量の推定値を出力します。

最近では、ますます進んでいます。私が共著者として参加した記事が受け入れられました。具体的には、排出を積極的に削減する方法についてです。たとえば、サーバーが他の時間帯ほど使用されない時間帯を予測し、遅延させるか、適切な地域を選択することで、排出を削減できます。例えば、オーストラリアでトレーニングを行うと、石炭ベースの電力網になるため、大気汚染が高くなります。一方、私が拠点としているケベック州やモントリオールでは、100%水力発電です。その選択をするだけで、排出を100倍近く減らすことができます。ですので、そういった小さなことも含めて、推定するだけでなく、人々に排出を減らすよう促したいのです。これが次のステップです。

コンピューティングを行う地理的位置には、異なる排出コストがあるとは思いもしませんでした。

サーシャ： ああ、私は今はエネルギーグリッドに本当に興味を持っています。どこに行っても、エネルギーはどこから来ているのか、どのように生成されているのかを尋ねます。それは本当に興味深いです。たくさんの歴史的要素や文化的要素があります。

例えば、フランスは主に原子力エネルギーであり、カナダは水力発電エネルギーが多いです。一部の地域では風力や潮力も多いです。ですので、電気をつけるときに、その電力がどこから来ていて、環境に対するコストがどれくらいかを理解することは本当に興味深いです。私が育ったとき、部屋を出るときには必ず電気を消して、プラグを抜くようにしていましたが、それ以上のことは何もしていませんでした。それは良いプラクティスでした。部屋にいないときには電気を消すということです。しかし、それ以降は、自分が住んでいる場所によって、エネルギーが異なる源から供給されていることを実際に見ることはありませんでした。そして、それによって、より多くのまたはより少ない汚染があるのですが、私たちはエネルギーがどのように生産されているかを見ることはありません。ただ光を見て、「これは私のランプだ」と思っているだけです。ですので、そういったことについて考え始めることは本当に重要です。

その種のことを考えないのはとても簡単で、それは一般的な意識を持たない機械学習エンジニアにとって障壁になる可能性があると感じています。

Sasha： そうですね、まさにその通りです。そして、普段は習慣で行動しているんですよね。クラウドインスタンスを使う場合、通常は一番近い場所や最も利用可能なGPUのある場所などがデフォルトオプションになっています。人々は「まあいいや、デフォルトでいいか」と思ってデフォルトを選びます。これがニャッジ理論の一環です。

私は認知科学の修士号を取得していて、デフォルトオプションを変えるだけで人々の行動を信じられないほど変えることができるということを知りました。例えば、レジの近くにリンゴやチョコレートを置くだけでも効果があります。だからもしデフォルトオプションが突然低炭素なものになったら、モントリオールでモデルをトレーニングする、どこでも構わないという人々がいくらでもいるので、温室効果ガスの排出をたくさん減らすことができるんです。ただし、長期的に見ると本当に大きな影響を与えます。

機械学習チームやエンジニアが、そのような側面に対してもっと積極的になるための方法は何ですか？

Sasha： 私は多くの人々が環境意識を持っていることに気付きました。自転車通勤したり、肉を減らしたりするなどの行動をとる人々です。しかし、機械学習の研究者やエンジニアとしての自分たちの環境への影響については意識していません。具体的には、炭素排出量のようなものを測定し始めることから始めて、情報を共有しなくても、例えばインスタンスの選択などを見直すことです。例えば、Google CloudやAWSでは低炭素なタグを付けて選択できるようになっています。そして、これらの小さなステップを踏んで、環境とテクノロジーの関連性を見つけることです。これらの点はしばしば関連付けられることがありません。テクノロジーはクラウドのように分散されていて、実際には見えないからです。ですが、これをより具体的にすることで、環境への影響を見ることができます。

それは素晴らしいポイントです。あなたのいくつかのトークやポッドキャストを聞いたことがありますが、そこでは機械学習がモデルの環境への影響を相殺するのに役立つ方法について言及されていました。

Sasha： そうですね、私たちは数年前にクールな経験をした論文を書きました。ほぼ100ページの長さで、Tackling Climate Change with Machine Learningというタイトルです。25人の著者がいますが、電力、都市計画、交通、森林と農業などのさまざまなセクションがあります。私たちは本の中で問題について話しています。例えば、再生可能エネルギーは場合によっては変動します。太陽光パネルは夜はエネルギーを生成しません。それは当然のことです。そして風力発電は風に依存します。再生可能エネルギーの実装における大きな課題の一つは需要に対応することです。太陽エネルギーでも夜に人々に電力を供給する必要があります。通常、ディーゼル発電機やバックアップシステムが使われますが、これらは環境効果を相殺してしまいます。しかし、機械学習を使うことで、どれくらいのエネルギーが必要になるかを予測することができます。前日のデータや気温、起こるイベントに基づいて、30分前や1時間前、6時間前、24時間前などの予測を行うことができます。

それによってディーゼル発電機を起動させる代わりに、バッテリーを使用することもできます。バッテリーは事前に充電を開始する必要があります。例えば、6時間後に夜が来ることを知っている場合は、バッテリーを充電し始める必要があります。したがって、予測的なアプローチを取ることで、大きな違いを生み出すことができます。そして機械学習はそのようなことに向いています。未来を予測することや適切な特徴を見つけることなどが得意です。これは典型的な例の一つです。もう一つはリモートセンシングです。地球に関する多くの衛星データがあり、森林伐採や山火事の追跡などができます。多くの場合、衛星画像を基に山火事を自動検出し、すぐに人々を派遣することができます。なぜなら、それらは人が住んでいない遠隔地に発生することがよくあるからです。機械学習が非常に有用な場合があるのです。データも必要であり、需要もあるのです。この論文では、どのように参加し、自分の得意なことや好きなことを活かして、機械学習を使って気候変動との戦いに役立てるかについて説明しています。

この取り組みに興味があるけれども、組織で優先されていない場合、環境への影響を優先するためにチームに刺激を与えるためのヒントはありますか？

Sasha: 常に費用と利益、または時間の問題ですね、あなたが投入する必要のある時間という意味で。そして、時には人々は存在するさまざまなツールやアプローチを知らないだけです。だから、人々がそれに興味を持ったり、知りたがったりするなら、それが最初のステップだと思います。私が最初に何ができるか考え始めたときでも、私はこれらのことが存在することを知りませんでした。データサイエンスの技術を使って長い時間をかけて取り組んできた人々がいます。

例えば、私たちは climatechange.ai というウェブサイトを作成し、気候変動がメタンを検出したりどのように役立つかについてのインタラクティブな概要があります。そして、この知識を散りばめることで興味深い思考プロセスや議論を引き起こすのに役立つと思います。私は、従来は気候変動に関心を持っていなかった企業でいくつかの円卓会議に参加したことがありますが、彼らは「キッチンに堆肥箱を置いたり、これをやったりあれをやったりした」と言っています。それでは、技術側からは何ができるのでしょうか？実際に興味深いことですが、学ぶ必要がある低コストな方法がたくさんあります。そして、それは「ああ、それはできるな、私はデフォルトでこのクラウドコンピューティングインスタンスを使用することができるし、それは私には何もかからない」というようなものです。そして、どこかのパラメータを変更する必要があります。

これらの改善を実装する際に、機械学習エンジニアやチームがよく見る一般的なミスは何ですか？

Sasha: 実際には、機械学習の人々やAIの人々は、他のコミュニティからこのようなステレオタイプを持たれています。AIで何でも解決すると思われています。私たちが到着して、「ああ、AIをやるんだ」と言っています。そして、AIは何をやっても問題を解決するだろうという考えがありますが、そのような態度はあまり見かけません。AIや機械学習が何ができるかを知っているし、私たちにはある種の世界観があります。それは、ハンマーを持っていると、何でも釘に見えるようなものです。私はいくつかのハッカソンに参加したり、一般的に言って、人々は気候変動と戦うために何かを作りたい、何かをやりたいと思っています。それはよく「これはAIができる素晴らしいことのように思えるし、私たちはそれをやる」という感じで、それがどのように使用されるか、それがどのように役立つか、それがどのようになるかを考えずにいます。確かに、AIはこれらすべてのことをやるかもしれませんが、最終的には誰かがそれを使うでしょう。

例えば、衛星画像をスキャンして野火を検出するための何かを作成した場合、モデルの出力情報は解釈可能でなければなりません。または、新しいメールを送るという追加の手順が必要です。そうでなければ、モデルを訓練しても、素晴らしいパフォーマンスでも、最終的には誰も使わないでしょう。なぜなら、それが現実世界や人々がそれを使用する方法とのわずかな接続が欠けているからです。それはセクシーではないし、人々は「うーん、まあ、私はメールを送るスクリプトを書く方法さえ知りません」と言うかもしれません。私も知りません。しかし、それでも、そのわずかな追加のステップを行うことは、これまでやってきたことよりもはるかに技術的に複雑ではありません。そのわずかなことを追加するだけで、大きな違いを生み出すことができます。それはUIの観点でも、アプリの作成でもかまいません。それは、あなたのプロジェクトが使用されるために本当に重要な機械学習の部分です。

そして、私は、論文や記事としては素晴らしい精度を持つ素晴らしいアイデアを提出するワークショップの組織に参加したことがありますが、その後もそれらは紙のまま、または記事のままで停滞してしまいます。なぜなら、次のステップが必要だからです。私は、このワークショップの中で、風速などを計算することにより、航空機の飛行排出物を3〜7％削減する機械学習アルゴリズムのプレゼンテーションを覚えています。もちろん、その人はスタートアップを立ち上げたり、製品を作ったり、ボーイングに提案したりするべきでした。そうでなければ、私が組織していたこのワークショップで発表した論文だけで終わってしまいます。そして、科学者やエンジニアは、このものを持って航空機メーカーに行くために必要なスキルを必ずしも持っていないかもしれませんが、それは挫折です。そして、最終的には、これらの素晴らしいアイデアや素晴らしい技術が消えてしまうのを見ることは、非常にもどかしいです。

悲しいですね。それでも素晴らしいストーリーであり、そうした機会があることに驚きます。

サーシャ：はい、そして私は科学者たちはお金を稼ぐことを必ずしも望んでいないと思います。彼らは問題を解決したいだけなんです。そして、スタートアップを始める必要はないかもしれません。誰かと話したり、誰かにプレゼンテーションをしたりするだけでも十分です。しかし、自分の快適ゾーンを超えなければなりません。そして、学術会議に参加するだけでなく、航空産業のネットワーキングイベントに参加する必要があります。それは怖いことですよね？そして、私はさまざまな学問領域の間に存在するこれらの障壁を非常に悲しいと感じています。私は実際にビジネスや他の業界のネットワーキングイベントに参加するのが好きです。なぜなら、そこで最も大きな変化をもたらすつながりが生まれるからです。それは業界固有の会議ではなく、みんなが同じ技術スタイルについて話しているだけですから、もちろん進歩やイノベーションは進んでいます。しかし、もし航空の専門家たちで溢れた部屋で唯一の機械学習の専門家であれば、たくさんのことができます。たくさんの小さな火花を散らすことができますし、その後、飛行機の排出物を減らす人々が現れるでしょう。

それは力強いですね。仕事に意味を見つけることがなぜ重要なのか、もう少し文脈を追加していただけますか？

サーシャ：はい、私の母が私が子供の頃にいつか雑誌で読んだ概念があります。それは「生き甲斐（いきがい）」と呼ばれるもので、日本の概念であり、人生の理由や意味を見つける方法です。それは宇宙における自分自身の場所を見つける方法のようなものです。それは、四つの要素を持つものを見つける必要があるというようなものでした。自分が好きなこと、得意なこと、世界が必要としていること、そしてキャリアになり得ること。私はいつもこれが私のキャリアだと思っていましたが、彼女はいつもそうではないと言っていました。これが好きでも報酬を得ることができないなら、それも難しい生活ですからね。だから彼女は常に私に大学の授業や学位を選ぶときに、それが自分が好きなことや得意なことと一致しているかを聞いていました。そして、私がこれを本当にやりたいと思っても、それが自分には向いていないかもしれないと言っていました。

だから私はそれがいつも私のキャリアの原動力だったと思います。そして、それによって自分が役立っているし、世界に対してポジティブな力であると感じることができます。例えば、私がモルガン・スタンレーで働いていたとき、面白い問題があったし、私はとてもうまくやっていたし、給料もすごく良かったです。何の不満もありませんでした。しかし、その中には「世界が必要としている」という側面が欠けていたのです。それはまるでかゆみをかけるようなものでした。しかし、この「かゆい」という概念を考えると、それが私の人生で足りないものだと気づきました。だから、私は一般的な人々、機械学習に限定されない人々が考えるべきだと思います。自分が得意なことだけでなく、自分が好きなこと、自分をやる気づけるもの、朝起きる理由も考えることが大切です。もちろん、世界が必要とする側面も持っている必要があります。それは世界の飢餓問題を解決することである必要はありません。それはより小さなスケールやより概念的なスケールでも良いのです。

例えば、私たちがHugging Faceで行っていることは、機械学習がよりオープンソースのコードやモデルの共有を必要としているということです。それは特定の問題を解決するためではなく、さまざまな問題に貢献することができます。再現性や互換性、製品など、問題のスペクトルに寄与することができます。世界はある程度これを必要としているのです。だから、私はHugging Faceに集中することができました。世界は必ずしもより良いソーシャルネットワークを必要としているわけではないかもしれません。多くの人々がソーシャルメディアやこれらの大手テック企業のコンテキストでAIの研究を行っています。多分、世界が必要としているのは違う何かかもしれません。だから、この四つの要素の枠組みが私のキャリアや人生における意味を見つけるのに本当に役立ったと思います。これらの四つの要素を見つけることを試みること。

AIや機械学習において、他にどのような例や応用が意味を持つと考えていますか？

Sasha: アクセシビリティと民主化という、しばしば見落とされる側面があると思います。AIを非専門家にとって使いやすくすることですね。ジャーナリストや医師など、どんな職業でも簡単にAIモデルをトレーニングしたり使用したりできるようになると想像してみてください。医療やヘルスケアでAIを行っていることは確かですが、それは非常にAI機械学習の視点からです。しかし、もっと多くの医師がより多くのツールを作成する力を持てるようになれば、またはパン職人のような他の職業でも同様です。モントリオールに友達がパン屋を経営していて、彼は「AIが私により良いパンを作るのを助けてくれるのかな？」と言っていました。私はおそらく、実験を行えば可能だと思います。彼は「オーブンにカメラを取り付けることができるかもしれない」と言いました。私は「そうですね、それは可能ですね」と言いました。それについて話していると、実際にパンはかなり気まぐれで、適切な湿度が必要であり、実際には多くの実験と「ブーランジェ」（パン職人）のノウハウが必要です。クロワッサンも同じです。彼のクロワッサンはとても美味しいのですが、彼は「適切なバターなどを知る必要があります」と言っていました。そして彼は「パンを焼くのを助けるAIモデルを作りたいのです」と言いました。そこで私は「どこから始めればいいのかさえわからない」と言いました。

だから、アクセシビリティは非常に重要な要素です。例えば、インターネットは今では非常にアクセスしやすくなりました。初期の頃よりもはるかにアクセスしにくかったと思いますので、AIはよりアクセスしやすく、民主的なツールになるためにはまだまだ進むべき道があると思います。

そして、データの力とそれについて十分に話されていないことについて以前話されたことがありますね。

Sasha: そうですね、4年か5年前、私は夫と一緒にコスタリカに旅行に行きました。地図を見ていたら、世界の果てにある研究センターを見つけました。まさにどこにでもあるような感じでした。車でダートロードを走り、最初に船に乗り、その後に2番目の船で行く必要がありました。そして彼らはジャングルの真ん中におり、実際にはジャングルを研究しており、ジャングルのあちこちに自動的に作動するカメラトラップが設置されています。そして数日ごとに、彼らはカメラからカメラへハイキングしてSDカードを交換する必要があります。そしてそれらのSDカードをステーションに持ち帰り、ラップトップで撮影されたすべての写真を見る必要があります。もちろん、風や動物が非常に速く移動するなどの理由で、多くの誤検知がありますので、実際には良い画像はおそらく5％程度です。私はなぜ彼らが生物多様性の追跡にそれを使用していないのかと思いました。そしたら、彼らは「ここでジャガーを見た」とか「あそこでジャガーを見た」というようなことを言っていました。彼らはそのようなカメラトラップをたくさん持っていますからね。

その後、彼らはジャガーや他の動物が殺されたか、子供を持ったか、けがをしたかを追跡しようとします。そして私は、少なくとも画像のフィルタリングプロセスを自動化できる部分があるはずだと思いました。ただし、修士課程の学生などがそれを行っていましたが、まだまだこのような例はたくさんあります。そして、これらの小さなツールがあると、科学者を完全に置き換えることはないとは言いませんが、面倒で時間のかかる小さな要素を取り除くのに機械学習が役立つことができます。

わぁ、それはとても興味深いです！

Sasha: 実際に、カメラトラップのデータは生物多様性の追跡の非常に重要な一部です。鳥や他の動物に使用されています。こうした場合には、過去数年間、カメラトラップデータに関するKaggleのコンペティションが開催されてきました。年間を通じて、ケニアやタンザニアなど、さまざまな場所にカメラトラップが設置されています。そして年の終わりには、さまざまな種類の動物を認識するための大規模なKaggleコンペティションが行われます。その後、モデルを展開し、毎年アップデートしています。

ですので、進展はありますが、データがたくさんあるという点は言われている通りです。各生態系はユニークであり、その生態系に合わせてトレーニングされたモデルが必要です。ケニアのモデルをコスタリカで使おうとしてもうまくいきません。データが必要であり、専門家がモデルをトレーニングする必要があります。そのため、これを実現するためには多くの要素が収束する必要があります。Hugging FaceにはAutoTrainというものがありますが、もっとシンプルなもので、コスタリカの生物多様性研究者が「これが私の画像です。品質の良い画像とその中の動物の種類を特定してください」といった具体的な作業をウェブのUIなどで簡単に行えるモデルがあればいいのです。そして、そのモデルが「これはジャガーの画像12枚です。この画像はけがをしています。この画像には赤ちゃんがいます」などと教えてくれるのです。

機械学習を使ってこれらのような問題を解決しようとしているチームに、必要なデータが不足している場合についての洞察を持っていますか？

Sasha: ええ、別の逸話があるんですけど、数年前にモントリオールでAI for social goodのハッカソンを開催したいと思っていたんです。で、その時はモントリオールのスープキッチンやホームレスシェルターなど、すべてのNGOに連絡しようと考えていました。それで、これらの場所に行ってみたんですが、どこにデータがあるのかと言われて「データって何ですか？」と言われたんです。「ホームレスシェルターにいる人の数や、何回来たかなど、追跡していませんか？」と聞くと、「いいえ」と言われました。それで、「でも、一方で人が行方不明になる問題や、長い間滞在する人といった問題もあるんです。そしてある時点で彼らを立ち退かせなければなりません」と言われました。例えば、フードキッチンでは、予測が難しくて余計な食べ物がたくさん出ることがありました。時々、「10月には通常よりも人が少ないことに気付いたけど、それを支持するデータは特にありません」と言われることもありました。

そのため、ハッカソンは完全に中止し、その代わりにデータリテラシーやデジタルリテラシーのワークショップを行いました。興味がある場所に行って、スプレッドシートの使い方や追跡したい内容を1〜2時間教えるワークショップを提供しました。時には、彼らが何を保存したいのか、追跡したいのかさえ分からない場合もありました。その後、数ヶ月ごとにチェックインするためにいくつかの場所でワークショップを行いました。そして1年後、特にフードキッチンでは、私たちは彼らと接続を作ることができました。会社名はもう覚えていないんですが、彼らは実際にサプライチェーン管理ソフトウェアを提供していました。そのため、キッチンは実際に「今日はトマトを10ポンド入手し、このくらいの人数が来て、食べ物の廃棄物がこれだけある」と追跡できるシステムを導入することができました。そして1年後、私たちはフードロスを減らすために彼らを支援するハッカソンを行うことができました。

それは本当に素晴らしかったです。何もトレースするものがなかった1年前と比べて、データを得てアプリに統合することができました。そして彼らは、「注意してください、トマトはもうすぐ腐ります、3日経ちました」といった警告を受けることができるようになりました。また、パスタの場合は6ヶ月や1年になることもありますので、実際にアラートを与えるシステムを導入しました。これは技術的には非常にシンプルで、AIはほとんど使っていませんが、異なるカテゴリの食品を追跡するのに役立つものでした。だから、これは本当に興味深い経験でした。私たちは入ってきて「何でもお手伝いしましょう」と言っても、データがあまりない場合、どうするつもりですか？

まさに、それはとても興味深いですね。それができて本当に素晴らしいですね。最初のステップを踏み出して、教育の一環としてそれを提供できたことは。

Sasha: そうですね、ハッカソンを主催するのはしばらく前のことです。でも、このようなコミュニティ参加のイベントは本当に重要だと思います。なぜなら、AIを使って乱入することはできないことを学びました。デジタルリテラシーはずっと重要であり、彼らはデータを収集するための努力を実際にはしなかったのです。あるいは、何ができるのかを知らなかったり、そういったことがありました。だから、このような努力をすることで、テクノロジースキルを改善することは、一般的には非常に有益な貢献ですが、人々はそれが選択肢であることに気付いていないんです。

機械学習を適用されることに最も興奮している業界は何ですか？

サーシャ：気候変動！そう、環境は私の一番の関心事です。教育は常に私が本当に興味を持っていたものであり、私はずっと待っていたんです。私は教育とAIについての博士号を取りました。AIが教育にどのように活用されるかについてです。私はそれがついにある一定のピークに達するのを待っていましたが、多くの文脈要素などがあるようですが、AI、機械学習、教育はさまざまな方法で活用できると思います。

例えば、私が博士号取得中に取り組んでいたのは、学習者に最適な学習活動や演習を選ぶ方法でした。弱点のある知識ポイントやスキルに焦点を当てるために、すべての子供や大人に同じ演習を与える代わりに。一つのサイズが全てに適しているアプローチではなく。そして、教師を置き換えるのではなく、補完的に指導することです。学校で概念を学び、それに取り組むのを手伝います。誰かがこれを非常に速く理解し、それらの演習が必要ない場合でも、他の誰かは練習するためにより多くの時間が必要かもしれません。私はまだそれが実際に使われていないように見えますが、潜在的には非常に効果的だと思います。

それでは、素早い質問に入っていきましょう。もし、あなたの機械学習キャリアの最初に戻って何か違うことをすることができるなら、何をしますか？

サーシャ：数学にもっと時間をかけるでしょう。私の両親は数学者で、いつも私に追加の数学の演習を与えていました。「数学は普遍的だよ、数学、数学、数学」と言っていました。子供の頃に無理矢理与えられると、後でそれを十分に評価することはありません。だから私は「いや、言語だよ」と思っていました。だから大学の一部では、数学ではなく人文科学だけを学んでいました。だから私は、最初からもっと開放的で、数学の潜在能力に気付いていれば、言語学や他の多くのことでここに至るのにもっと早くたどり着いたと思います。

高校の最終学年である12年生の時、私の両親は私に数学の競技大会に参加させました。私はそれに勝ちました。その後、メダルをもらって、私はそれを母親に渡して「もう数学はしないわ」と言いました。彼女は「そうだね、そうだね」と言っていました。その後、私が博士号のプログラムを選ぶ時、「ああ、数学の授業があるようだけど、機械学習をやるんだよね？」と彼女は言いましたが、私は「違うよ」と言いました。でも、そうだったら、最初の数学への嫌悪感を早く克服すべきだったと思います。

それは面白いですね。逆に、私はよく聞くのですが、一部の機械学習のライブラリやプログラムが進化するにつれて、ますます数学を知らなくても良くなると人々が言うのを聞きます。

サーシャ：確かに、でも基盤となる知識を持つことは重要だと思います。超天才である必要はないと言っているわけではありませんが、直感を持つことが重要です。例えば、私が吉田さんと一緒に仕事をしていたとき、彼は完全な数学の天才で、数学が当たり前のように理解できます。一方、私は「じゃあ、この損失関数の方程式を書いて、結果を理解しようとします」といった具体的な手順を踏まなければなりません。それは少し自動的ではなく、スキルとして開発できるものです。それは必ずしも理論的なものでなく、実験的な知識でもあります。ただ、この非常に堅固な数学的なバックグラウンドがあることで、早くそこにたどり着くことができます。いくつかのステップを飛ばすことはできません。

それは素晴らしいですね。親に助けを求めることができますか？

サーシャ：いいえ、絶対に親に助けを求めません。それに、彼らは理論的な数学者なので、機械学習は数学が苦手で怠け者のためのものだと思っています。そして、どの分野にいるかによって、純粋な数学者、理論的な数学、応用数学、統計学者など、さまざまな派閥があります。

そして、私は弟が機械学習を考えていたことを覚えています。父は「いや、理論数学にとどまって、そこが天才たちがいる場所だ」と言っていました。彼は「いや、機械学習は数学が死ぬ場所だ」と言っていました。私は「お父さん、私もここにいるよ！」と言いました。彼は「それなら、兄弟はもっと洗練されたものに取り組むべきだ」と言いました。私は「それは公平じゃない」と言いました。

だから、機械学習には多くの経験的な要素があり、多くの試行錯誤があります。ハイパーパラメータの調整を行い、なぜそれを行っているのか本当にわからないこともあります。だから、公式な数学者は、式がない限り、機械学習は本物ではないとは思わないのです。

数学的な基礎の他に、機械学習に入門しようとする人に何かアドバイスはありますか？

Sasha: 私は、Jupyterノートブックやコーディングの演習など、手を汚して始めることをおすすめします。特に、具体的なアングルや問題に取り組みたい場合、またはアイデアがある場合は、試してみることが重要です。私は、博士課程の初めに機械学習のサマースクールに参加したことを覚えています。それは本当に興味深かったのですが、すべての例がバラバラでした。データは何だったか覚えていませんが、猫対犬とかそんな感じで、なぜそれを使うのか理解できませんでした。そして、演習の一部は、分類器として使用する何かを見つけることでした。

その後、私は花の写真を入手し、それに夢中になりました。これらの花は似ているので、分類が難しいと感じました。画像がもっと必要だと理解し、それに夢中になりました。それが私の頭にひっかかった瞬間です。抽象的な分類だけではないということがわかったのです。また、MNISTというデータアプリを使用していたことも覚えています。それは手書きの数字で、とても小さく、ネットワークが高速に動作します。初めの機械学習の授業でよく使われます。でも、誰が気にするんだろう、数字を分類する必要なんてないんだけど、と思いました。しかし、自分で画像を選べるようになると、一気に個人的で興味深く魅力的になりました。だから、人々が行き詰まっている場合、興味を持つことに集中することが本当に重要だと思います。例えば、気候変動のデータを手に入れて、それをいじってみると、プロセスがより楽しくなります。

それ、素晴らしいですね。興味を持つことを見つけるといいですね。

Sasha: まさにその通りです。私が取り組んだお気に入りのプロジェクトの一つは、蝶の分類でした。人々が撮影した写真を基に、ニューラルネットワークを訓練して蝶を分類しました。とても楽しかったですし、たくさん学びました。そして、自分が使われる方法を理解して問題を解決していることにもなりました。だから、みんなが自分の仕事にこのような興味を持てたらいいなと思います。本当に自分が違いを作っている感じがし、それは楽しくて興味深く、もっとやりたくなります。このプロジェクトは、モントリオール昆虫館とのパートナーシップで行われました。昆虫の博物館です。私は多くの人々と連絡を取り合っていて、彼らはこの週末、3年間のリノベーションの後に昆虫館をオープンします。

彼らは私と家族もオープニングに招待してくれました。私はそこに行くのがとても楽しみです。実際に昆虫を触れることができます。スティックバグもいて、バタフライがいっぱいいる大きな温室もあります。そしてその温室で、アプリをインストールして、バタフライの写真を撮ることができます。そしてそれが私たちのAIネットワークを使用してバタフライを識別します。私はアプリを使って、子供たちに使ってもらうのを楽しみにしています。昆虫の写真を撮るための小冊子を渡されて、それを探す必要がありました。静的な表現とこれらのアプリの違いを見るのが本当に楽しみです。

まさに。自分が作り上げたものがそう使われるのを見るのは、本当に素晴らしいですね。

Sasha: そうですね。気候変動と戦うというわけではなくても、自然や生物多様性を理解し、それが抽象的で二次元的なものから、実際に関わって写真を撮ることができるものになることで、大きな違いを生み出すことができると思います。それは私たちの認識とつながりにとっても大きな違いを生み出します。自然と自分自身の間につながりを作る手助けをしてくれるのです。

では、人々はAIが世界を支配することを恐れるべきでしょうか？

Sasha: それはまだ遠い話だと思います。世界を支配するとはどういう意味かにもよりますが、私たちは今起こっていることについてもっと意識的になるべきだと思います。未来を考えてターミネーターとかそういうことになる前に、私たちの電話や生活でAIがどのように使われているかを認識し、それに対してもっと気をつけるべきです。

技術やイベントは、私たちが思っている以上に私たちに影響を与えています。たとえば、Alexaを使うことで、私たちはその技術に機会を与えています。私たちは材料や資金だけでなく、参加することもできます。たとえば、「この技術を使って私のデータがどう使われるかについては参加しない」とか、「利用規約をよく読んで、この場合にAIが何をしているのかを理解する」といった選択をすることです。一般的にもっと関与することです。

だから、人々はAIを非常に遠い潜在的な脅威として見ていると思いますが、実際には現在の脅威であり、ただ尺度が異なるだけです。私たちは、生活の中でAIが使用されている小さなことについて考え、それに関わることで、AGIが世界を支配する可能性が減るでしょう。データの共有、同意、特定の方法で技術を使用することについてより意識的な選択をすることです。たとえば、自分の街の警察が顔認識技術を使っていることを知ったら、それについて声を上げることができます。それは多くの場所で市民としての権利の一部です。つまり、現在に関与することで、将来に影響を与えることができるのです。

現在、何に興味がありますか？映画、レシピ、ポッドキャストなど、何でも構いません。

Sasha: パンデミックやロックダウンの間、私は植物に夢中になりました。たくさんの植物を買いましたし、今は子供たちと一緒に庭を準備しています。これは私にとっては初めてのことで、トマトやピーマン、キュウリなどの種を植えました。普段は既に成長したものを食材として買うだけですが、今回は子供たちに教えたいと思いました。そして、プロセス全体を学びたいとも思いました。約10日前に植えた種が成長し始めています。毎日水やりをしていて、これも自然や植物の繁栄に役立つ条件について学ぶプロセスの一環です。去年の夏には、ただ土を詰めるだけの四角いものだけでなく、今年はもっと良くするつもりです。複数のレベルを持つなど、自分で食べ物を育てることについてもっと学びたいと思っています。

それはすごくいいですね。本当にしっかりとした活動だと思います。

Sasha: はい、それは私がやっていることとは正反対です。コンピュータで何かをするのではなく、外に出て指先を汚すことができるのは素晴らしいことです。昔は誰が庭いじりなんてしたがるんだろう、つまらないなんて思っていましたが、今は庭いじりに夢中です。週末に庭に行くのが待ち遠しいです。

そうですね、ピクセルを押すのとは違って、見たり触ったり感じたり匂いをかいだりできるものを作ることには、とてもやりがいを感じます。

Sasha: まさにその通りです。プログラムにバグがあり、うまく動かないという一日を過ごすこともありますが、でも私にはチェリートマトがあるんです。それで十分です。

あなたのお気に入りの機械学習論文は何ですか？

Sasha: 現在は、AI倫理の研究者であるAbeba Birhaneの論文がお気に入りです。彼女の研究は、物事を完全に異なる視点から見る方法です。例えば、彼女はFAcctというAI倫理の会議で採用された論文を書きました。それは、値や機械学習研究のやり方が私たちの価値観によって実際に駆動されていることについてでした。例えば、私が高い精度を持つネットワークを重視する場合、効率性にはあまり重点を置かないかもしれません。つまり、例えば本当に正確なモデルにするために長い時間モデルを訓練するでしょう。また、新しさの価値を持つものが欲しい場合、10年間何が行われてきたのかを文献を読まないで、自分で再発明しようとするでしょう。

彼女と共著者は、理論的な価値と機械学習におけるそれらの具体化との関連について非常に興味深い論文を書いています。これは、通常私たちはそれをそのようには見ないため、私にとっては非常に興味深いものでした。通常は、私たちは最先端を確立しなければならない、正確さを確立しなければならないといった具体的な作業を行い、関連する研究を引用する必要がありますが、それはチェックボックスのようなものです。そして、彼らはなぜ私たちがこれをやっているのか、そしてどのような究極的な方法でそれを行うことができるのかについてもっと深く考えます。例えば、効率と正確さのトレードオフを行うこともあります。少し正確さが低いモデルでも、より効率的で速く訓練できる場合、これはAIの民主化の良い方法になるかもしれません。つまり、人々はモデルを訓練するためにより少ない計算リソースを必要とするかもしれません。彼らは非常に興味深いつながりを作り出しており、私はそれを本当にクールだと思います。

Sasha: はい、Big Scienceの外で取り組んでいることは、モデルの評価方法と、どのようにモデルを評価し、異なる側面で比較するかです。これはAbabaが彼女の論文で話していることにも関連していますが、純粋な機械学習の観点からも、モデルを評価し、異なる側面を考慮に入れる方法は何でしょうか。正確性だけでなく、効率性や炭素排出量などです。つまり、パフォーマンスに主眼を置いた評価方法だけでなく、異なる側面を考慮に入れる方法について、1か月前から始まったプロジェクトがあります。私たちは、モデルの結果により深く入り込み、モデルをより良く理解するためのツールを作りたいと考えています。

例えば、データセットがあり、平均的な正解率がある場合、データセットの異なるサブセットでも正解率は同じですか？例えば、モデルを改善するのに役立つ、また公平な結果になるようなパターンはありますか？典型的な例は画像認識ですが、そのアルゴリズムは白人男性よりもアフリカ系アメリカ人女性で良い結果を出しました。しかし、これはジェンダーや人種に限ったことではありません。画像、色、オブジェクトの種類、角度などについても同じように評価できます。これは通常時間がかかるため、あまり見逃されがちな機械学習の側面です。そこで、私たちは結果をより深く掘り下げ、モデルをより良く理解するためのツールを作ることを目指しています。

オンラインでどこであなたに連絡することができますか？

Sasha: 私はTwitterで@SashaMTLとして活動しています。それが一番良い方法だと思います。ウェブサイトも持っていますが、更新は十分ではありません。

完璧です。それもリンクできます。Sashaさん、今日は参加していただきありがとうございました。非常に洞察に富んでいて素晴らしい時間でした。本当に感謝しています。

Sasha: ありがとう、ブリトニー。

Machine Learning Experts をご視聴いただき、ありがとうございます！

あなたや知り合いの方が Sasha のようなトップの ML 専門家からの直接アクセスに興味がある場合は、hf.co/support にアクセスして詳細をご確認ください。❤️

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful