「機械学習が間違いを comitte たとき、それはどういう意味ですか?」

機械学習の誤りの意味は何ですか?

ML/AIに関する「間違い」という定義は意味があるのか?もしそうでない場合、なぜでしょうか?

Kind and Curiousによる写真、Unsplashから

最近の機械学習の公衆の認識に関する投稿に対するコメントが、私に機械学習におけるエラーの意味について考えさせました。その読者は、私が機械学習モデルが常に「間違いをする」と考えているかどうか尋ねました。私がその投稿で説明したように、人々は機械学習モデルを擬人化する傾向が強いです。LLMチャットボットとのやり取りでは、私たちは他の人とのコミュニケーションを通じて学んだ技術(説得、表現、議論など)を適用します。しかし、これはしばしば効果がなく、満足できない応答に終わります。

私自身の日常の仕事でも、分類器や回帰モデルに関連する同様の問題が見られます。私と私のチームは、機械学習が完璧ではないこと(そして現実的には決して完璧にならないこと)を顧客や同僚に理解してもらうために、多くの時間とエネルギーを費やしています。「なぜモデルはXと言ったのに真実はX-5だったのですか?」という質問は絶え間ないテーマです。私は質問をした人々を完全に非難しませんが、少なくとも部分的には、私が前回の記事で書いたように、私たち機械学習の広範なコミュニティが基本的な機械学習リテラシーを教えることにうまく対応していないからです。

しかし、これは私たちが本当にそのリテラシーの問題を修正する前により深く探求する必要がある核心的な問いを提起します。

「モデルが間違いをした」と言うとき、私たちは何を意味しているのか(他の人々は何を意味しているのか)?また、なぜ間違いをしたと言うのでしょうか?

それに答える前に、最初から始める必要があります。

機械学習モデルとは何か?

非常に一般的な意味で言えば、機械学習モデルは、ある入力またはプロンプトを受け取り、確率的に決まるいくつかの応答を返すアルゴリズムです。どのように応答を決定するかは大きく異なることがあります。決定木、ニューラルネットワーク、線形回帰など、さまざまな種類の機械学習を使用するかもしれません。

モデルを作成するには、求めている結果を反映するサンプルデータから始めます。入力サンプルはさまざまなものである可能性があります。生成型AIの場合、大量の人間によって書かれたテキスト、音楽、画像などが含まれるかもしれません。他の種類の機械学習の場合、オブジェクトの特性や画像やテキストをカテゴリに分類するなどの大規模なデータセットが含まれるかもしれません。

これらは「ラベル付け」されることもあり、モデルが望ましいものかどうか、特定のカテゴリに属するものかどうかを学習します。他の場合、モデルは基礎のサンプルのパターンを学習し、それらのパターンの理解を独自に導き出し、入力の特性を複製したり、オプションを選択したり、入力をグループに分割したり、他の活動を行うことができます。

生成型AIモデルの訓練方法

生成モデルの訓練方法は特定のものであり、単純な答えの確率を推定するモデルの訓練よりも複雑です。これらのモデルは、多くの異なる要素の確率を推定し、それらを組み合わせて応答を作成します。以下に、この訓練を行ういくつかの方法の非常に単純な説明を示します(これらはすべて非常に単純化された説明であり、詳細の不足や一般化についてはご容赦ください)。

音や画像を生成する場合、敵対的生成ネットワーク(GAN)を使用することがあります。ここでは、モデル同士を対戦させ、1つのモデルが新しいコンテンツを生成し、もう1つのモデルがそのコンテンツがモデルから来たものかどうかを判断しようとします。このようなケースが何千回も繰り返され、モデルはそれぞれのタスクでより良くなっていきます。最終的に、生成モデルは現実のものとほとんど区別がつかないコンテンツを生成できるようになります(識別モデルも入力が人間によって生成されたかどうかを判断することが非常に得意になります)。

LLMやGPTモデルのようなテキスト生成の場合、私たちはトランスフォーマーと呼ばれるものを使用します。この訓練では、モデルに単語の意味がどのように関連しているか、または人間の作成物とほとんど区別できないテキストコンテンツを生成する方法を教えます。結果は非常に説得力があります、なぜならモデルは単語がどのように組み合わさる傾向があるかを知っているからです(トレーニングで使用される実際の人間の言語がそれらを組み合わせる確率に基づいています)。

テキスト入力から画像を生成するために、Dall-Eのように私たちはDiffusionを使用しています。この場合、モデルに画像のどのような特徴が最も望ましいかを計算させるように教えます。モデルは基本的には静止画像から始まり、テキストに基づいて詳細/色/特徴を適用します。これは、トレーニングデータに基づいて、テキストが通常画像に対応する方法について学んだ内容に基づいています。

これらの技術を使用することで、モデルに入力のパターンを解読するように教えます。時には私たち自身が説明したり検出したりできないパターン(特に深層学習の場合)もありますが、モデルはそれらのパターンを解釈し適用することができます。これらすべては表面下では数学的なものですが、パターンはテキストや画像、その他多くのものに存在するかもしれません。

これを知ることで、出力が何であり、出力が望ましいものでない場合の意味について話すことができます。

出力

機械学習モデルが生成するものはさまざまです。特に生成型AIは、ありとあらゆる種類の画像、ビデオ、オーディオ、テキストを生成します。他の種類のモデルでは、イベント/現象の発生確率、未知の値の推定、テキストの異なる言語への翻訳、コンテンツのラベルやグループ分けなどが得られます。

これらすべての場合、与えられた入力に基づいて最適な応答を推定するために、複雑な数学的計算が行われます。しかし、「最適」というのは非常に具体的なものです。モデルの作成プロセスでは、モデルに対して望ましい応答の特性を示しました。

モデルの作成プロセスでは、モデルに対して望ましい応答の特性を示しました。

予期しない結果が得られた場合、それはどういう意味ですか?

これは、モデル自体と同じくらい私たち自身に関係しています。これは、テックスペースの他の製品と同様です。製品のデザイナーや開発者は、何かを販売するために開発する際に「ユーザーストーリー」をまとめます。これは、この製品を使用する人々についての物語であり、どのように、なぜ使用するのか、そして何を得たいのかについてのナラティブで構成されています。

例えば、スプレッドシートツールを設計しているとします。私たちは、会計士であるアンについて考え、スプレッドシートソフトウェアに必要な機能の種類を会計士と話し合います。その後、ビジネスアナリストであるボブについて考え、BIアナリストに彼らの機能ニーズについて話を聞きます。これらをすべてリストにまとめ、スプレッドシートツールの計画に使用し、デザインをガイドします。イメージが湧きましたね。

機械学習モデルのユーザーは誰ですか?それは完全にモデルの種類に依存します。たとえば、物件の特徴に基づいて住宅価格を予測するモデルの場合、不動産業者、抵当証書貸付業者、住宅購入者などが該当します。はっきりとした範囲内で適用される比較的具体的なモデルは、ユーザーに合わせて簡単に調整することができます。私たちデータサイエンティストは、このモデルが使用する人々の期待に応えることを確認できます。

予測が正確でない場合、それは数学的な問題であり、なぜそれが起こったのかを解読することができるでしょう。たとえば、モデルに誤ったデータを与えたのか、この家がモデルに伝えることができなかった何らかの理由により特殊な場合であるかもしれません。たとえば、庭に動物園がある場合の家の価格への影響をモデルに解釈させたことがない場合、それを組み込む方法はありません。住宅価格の暴落が起きた場合はどうでしょう?私たちはそれを最近目撃しましたが、モデルがクラッシュ前に学んだパターンはもはや適用されないでしょう。

ただし、このような場合には2つの要素があります:

  1. データサイエンティストとユーザーの両方が認識している、モデルが達成することを意図した明確な目標。
  2. モデルが目標にどれだけ近づいたかを測定することができる数量化可能な方法。

これにより、モデルの成功を定義することが明確で簡単になります。その決定を下した後、モデルが何をしたのかを探求することができます-これがフィールドでの「モデルの説明可能性」または「モデルの解釈可能性」と呼ばれるものです。

しかし、LLMsの場合はどうでしょうか?

LLMのようなものに対して、このフレームワーク全体は何を意味するのでしょうか?ChatGPTのユーザーは誰ですか?(「みんな」と心の中で言ったでしょうか?)LLMの出力が複雑で多様な場合、私たちは疑問を持ち始めます。

生成AIモデルを構築したデータサイエンティストにとって、異なるトレーニング方法を使用することがありますが、通常は人間または自然生成されたトレーニングデータにできるだけ近いコンテンツを作成しようとしています。そのために、モデルは人々や自然が実際に作成したサンプルコンテンツでトレーニングされます。モデルに「リアル」なコンテンツがどのように感じられるかを数学的に理解させるために、最善の努力をしています。これにより、生成AIモデルは効率的にコンテンツを作成し、特定の人間の作業を不要にすることができるようになります。

生成AIモデルを構築したデータサイエンティストにとって、目標は通常、人間または自然生成されたトレーニングデータにできるだけ近いコンテンツを作成することです。

これらのモデルは、この点で非常に優れています!ただし、これにはいくつかの落とし穴があります。LLMモデルは、人間の応答を模倣するのに非常に説得力があるため、ユーザーはそれらを人間のような存在として短絡的に考える傾向があります。これは子供が動物について学ぶ方法に似ています。子供に、4本の足と濡れた鼻を持つ毛むくじゃらの生き物は犬であると教えると、猫を目の前に置いてもそれもおそらく犬だと思いがちです。なぜなら、基本的な特徴が非常に似ているからです。猫が異なるものであると説明すると、彼らは違いを解釈し、異なる心のモデルを構築し始めます。

これらのモデルは、人間の応答を模倣するのに非常に説得力がありますので、ユーザーはそれらを人間のような存在として短絡的に考える傾向があります。

現時点では、一般の人々はまだLLMと人間を区別するために異なる心のモデルを構築していると考えています(以前に書いたように、犬と猫が同じものではないことを説明する大人であるデータサイエンティストになる必要があります)。

しかし、私は少し話がそれてしまいました。これが本当に意味することは、非常に基本的なモデル(家の価格など)と対話する人々は、これが限定されたアルゴリズムであることを理解しています。それは人間ではなく、スプレッドシートの数式のようなものであり、これが私たちの期待を形作っています。しかし、例えばChatGPTを使用する場合、それはオンラインで人間とチャットしているような特徴を持っており、これは私たちに影響を与えます。私たちは「人間の言葉のようなテキスト」といった限定的なものだけを期待するのではなく、文は常に正確であり、結果には一貫した批判的思考が含まれていること、そして今日のニュースからの事実がモデルから取得可能であると期待するようになります。ただし、例えば昨年に訓練されたモデルであっても、これは期待されるものではありません。

非常に基本的なモデルと対話する人々は、これが限定されたアルゴリズムであることを理解しています。…しかし、例えばChatGPTを使用する場合、それはオンラインで人間とチャットしているような特徴を持っており、これは私たちに影響を与えます。

モデルの結果に批判的思考のような見え方が生じるのは、モデルがリアルな人間の情報源からの「批判的思考」と解釈されるテキストの配置を学習しているためです。私たちは人々と話すとき、彼らが批判的思考を使用していると推測します。しかし、機械学習ではそれはできません。

上記で説明した家の価格モデルの2つのキー要素を覚えておいてください:

1. モデルが達成することを意図している明確な目標(データサイエンティストとユーザーの両方が認識している);

2. モデルが目標に近づいたかどうかを測定するための数量化可能な方法。

LLMを含む生成AIにおいて、1に問題があります。部分的には、目標が実際にはそれほど明確ではないためです(「人間が生み出したものと区別できない材料を返す」という目標)。しかし、主な問題は、データサイエンティストがユーザーに対してその目標が何であるかを十分に伝えていないことです。これらのモデルに取り組んでいるデータサイエンティストは、モデルが十分に「リアル」または人間らしいコンテンツを生成したかどうかを教えるために複雑な数学的システムを使用しています。しかし、通りでの一般的なユーザーにとっては、これははるかに難しいことです。モデルが良い仕事をしたかどうかを判断することは、数学の問題の結果をチェックするのではなく、論文の評価のようなものです。主観性が入り込みます。

ただし、測定が容易であっても、私は強く主張します。技術的に詳しく、高度に教育された人々でさえ、これらのモデルがどのようにトレーニングされたかを実際には理解していないため、期待すべきこととそうでないことが実際には明確ではありません。したがって、月が緑のチーズでできていると説明する流暢で雄弁な「人間らしい」段落など、モデルにとって完全に適切な結果は、「間違い」と見なされるでしょう。しかし、これは実際には間違いではありません- この出力はトレーニングの目標を達成し、それが私たちの混乱の一因です。

期待値の調整

これは、これらのモデルの期待値を調整する必要があることを示唆しており、この記事がその手助けになるかもしれません。機械学習モデルを正しく使用し、エラーと予想される動作の違いを説明するためには、モデルが訓練されたタスクや訓練データの性質について理解する必要があります。さらに進んで言えば、そのモデルの背後にいるデータサイエンティストが成功をどのように測定したかについても明確な文脈を持つ必要があります。なぜなら、それはモデルの動作を劇的に形作るからです。

これらの要素を取り入れることで、モデルの結果が何を意味するのかを理解するために必要な文脈を持つことができ、それを正確に解釈することができます。あなたの期待値は合理的であり、それが満たされたかどうかを知ることができるでしょう。そして、機械学習において「間違い」とは実際に何を意味するのかを知ることができるでしょう。

人気のある生成型機械学習モデルに関しては、それらがどのように訓練され、応答が実際に何を意味するのかを明らかにするための有用な資料がいくつかあります。以下にいくつかのリンクを追加しました。(これらの資料のすべての意見を支持しているわけではありませんが、生成型AIについてさらに学びたい方々に選択肢として提供しています。)

AIモデルは常に幻覚を見続ける運命にあるのか? | TechCrunch

ChatGPTのような大規模言語モデルは、事実をでっち上げるという悪い癖があります。しかし、これは技術レベルで解決できるのでしょうか?

techcrunch.com

Google Cloudスキル向上

Qwiklabsは、開発者やITプロフェッショナルがクラウドプラットフォームを学ぶのに役立つ本物のGoogle Cloud環境を提供します…

www.cloudskillsboost.google

Garon, Jon M., A Practical Introduction to Generative AI, Synthetic Media, and the Messages Found in the Latest VoAGI (March 14, 2023). Available at SSRN: https://ssrn.com/abstract=4388437 or http://dx.doi.org/10.2139/ssrn.4388437

私の他の作品はwww.stephaniekirmer.comでご覧いただけます。

注:通常は「機械学習」という言葉を使用しますが、「生成型AI」の場合はこのフレーズを使用することにしました。なぜなら、このフレーズはこの分野で広く採用されているからです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「NVIDIA、ワシントンのAIの安全性確保の取り組みを支援」

本日、ホワイトハウスで開催されたイベントで、NVIDIAはバイデン政権が策定した自発的な取り組みを支持することを発表し、高...

AIテクノロジー

2023年に使用するための11つのAIビデオジェネレータ:テキストからビデオへの変換

AIの最も注目すべき表現の一つは、AIビデオジェネレーターの登場です。これにより、テキストとビジュアルの間の隔たりをなく...

AI研究

CMUとプリンストンの研究者がマンバを発表:多様なモードのディープラーニングアプリケーションにおいてトランスフォーマーの効率を超えるSSMアーキテクチャの画期的な進展

現代の機械学習において、ファウンデーションモデルは、大量のデータで事前に学習され、その後に下流のタスクに対して改変さ...

機械学習

ニューラルネットワークにおける活性化関数の種類

ニューラルネットワークの活性化関数は、ディープラーニングの重要な部分であり、トレーニングモデルの精度と効率を決定しま...

機械学習

プロンプトエンジニアリングへの紹介

イントロダクション 自然言語処理は、基盤となる技術や手法を使用した実装の豊かな領域であります。近年、特に2022年の始まり...

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...