「人間の労働が機械学習を可能にする方法」

「人間の力が機械学習を生かす方法」

技術と人間の活動の間にある区別は、大部分が人工的であり、人々はどのようにして私たちの仕事を可能にしているのでしょうか？

Dominik Scytheによる写真 Unsplash — Dominik Scytheによる写真、Unsplashで公開

私たちがMLの進歩を可能にするためにどれだけ多くの手作業が必要かについては、あまり話し合われていません。真実は、技術と人間の活動の間にある区別は人工的です。モデルのためのすべての入力は人間の努力の結果であり、すべての出力は一方または他方で人々に影響を与える存在です。私は今回のコラムで、私たちが何をする上で人々がどれだけ重要な存在であるかについて、データサイエンティストだけでなく、特定の領域について話す機会を使います。

技術と人間の活動の間にある区別は人工的です。なぜなら、モデルを作成するためのすべての入力は人間の努力の結果であり、すべての出力は一方または他方で人々に影響を与える存在です。

データの生成

これはおそらく皆さんすでに知っていることですが、LLMには莫大な量のテキストデータが必要です。私たちは通常、ハードドライブ上の数百または数千ギガバイトのデータと考えていますが、これは少し抽象的です。一部の報告によれば、GPT-4のトレーニングデータにはおよそ1兆語が含まれていました。それぞれの単語は人間によって書かれ、彼ら自身の創造能力に基づいています。文脈としては、『ゲーム・オブ・スローンズ』シリーズの第1巻には約29万2727語が含まれていました。したがって、GPT-4のトレーニングデータはその本のコピーを約341万6152冊分使用したものです。これはテキストモデリングの例に過ぎませんが、それ以外の種類のモデル（マルチメディアを生成または分類するモデルなど）も同様に膨大な量のそのようなデータを使用します。

このデータに関して考慮すべきいくつかの要素があります。まず、すべてのデータは人間によって生成されるものであり、それが魔法のように私たちのハードドライブに現れるわけではありません。私たちのデータを作成する人々への敬意と認識は、倫理的な問題として重要です。彼らは私たちが利益を得ている価値を創造するために仕事をしました。しかし、データの出所を知っておくべき理由は、より自己中心的なものもあります。データサイエンティストとして、どのような素材をモデルに示すかを知る責任がありますし、それを十分に理解する必要があります。データの由来を無視すると、モデルが現実世界に直面した際にどのような振る舞いをするかについて、不快な驚きを受ける可能性があります。例えば、インターネットのフォーラムやソーシャルメディアのデータを使用してLLMをトレーニングすると、これらのモデルは人種差別や憎悪の表現など、これらの空間の最悪の要素を再現するリスクがあります。より極端な例ではありませんが、モデルは受け取ったトレーニングデータに影響を受けます。

データの由来を無視すると、モデルが現実世界に直面した際にどのような振る舞いをするかについて、不快な驚きを受ける可能性があります。

データのラベリング

データのラベリングには人間の助けが必要です。では、ラベルとは具体的には何でしょうか？基本的に、データの中から見つけたものに対して値や判断を割り当てるために人間の洞察力を使用することです。データがどのように収集または作成されても、そのデータにはさまざまな種類の機械学習ユースケースでのラベリングが必要です。

これは単にデータポイントが良いか悪いかを判断すること、単語が肯定的な意味を持つか否かを判断すること、派生した値を作成すること、レコードをカテゴリに分割すること、画像や動画に適用するタグを決定することなどが含まれます。一般的な例としては、文字認識モデルの改善のために画像や他のマルチメディアの中にあるテキストを識別することです。captchaを使用したことがある場合、おそらくこの作業は馴染みがあるでしょう。

LLM自体は、理論的にはラベリングが不要です。なぜなら、これらのテキストが既に実際の人間によって生成されたものであり、「人間の出力に似たもの」として可能な限り受け入れられるからです。基本的には、人間が書いたものであれば、それはモデルが学習し模倣しようとする適切な例であると定義されます。これが私たちが意味埋め込みなどを使用する理由です。モデルは、人間によって生成されたテキストの言語パターンがどのように機能するかを学習し、それらを数学的な表現に変換します。しかし、私たちはまだモデルのプロセスにどのテキストを入れるかを選択しており、そのテキストを理解し評価する責任があります。

教育モデル

強化学習は、チューニングのタスクにおいて人間の介入を使用します。つまり、モデルが基本的に一貫した回答を返す方法に慣れた後、音声、画像、動画、その他の要素に対してどのように応答するかを微調整しています。いくつかの主に自動化された事前訓練や基本訓練の要素の後、多くのモデルは人間によって微妙な判断をされ、モデルが望ましい結果をもたらしているかどうかを判断します。これは非常に困難な課題です。なぜなら、実際にモデルから求められるニュアンスが非常に複雑であるためです。これは大規模なスケールでLLMを合格不合格のスタイルで編集するようなものです。

以前述べたように、多くの現代のモデルは、人間のユーザーにとって最も満足のいくコンテンツを生成しようとしています-つまり、人間にとって正しく魅力的に見えるものを生成することです。それを訓練するための最善の方法は、中間段階のトレーニングの結果を人間に確認させ、結果がこの説明に合っているかどうかを判断し、モデルに適切な選択をさせることです。それは最も効果的な方法であり、それが機能する唯一の方法かもしれません。

それは基本的にはLLMの合格不合格スタイルでの編集です。

なぜこれが重要なのか

では、それで何でしょうか？私たちのモデルを可能にするために、現実の人々が大変な仕事をしていることについて良心的であることは十分ですか？彼らをたたえて感謝しますか？いいえ、少し違います。なぜなら、私たちが生成する結果において人間の影響がどのような意味を持つかを探求する必要があるからです。データサイエンティストとして、私たちは自分たちが構築したものとそれが存在する世界との相互作用について好奇心を持つ必要があります。

これらすべての影響のため、ヒューマンの選択がモデルの能力と判断に影響を与えます。人間のバイアスがモデルに埋め込まれます。なぜなら、人間が関与し、制御し、判断するすべての素材を作り出すからです。私たちは、このテキストの一部をモデルにトレーニングするために提供するかどうかを決定し、この特定のモデルの応答が他のモデルよりも悪いと判断し、モデルは私たちのこれらの選択肢を数学的な表現に固定化して再利用および複製します。

このバイアスの要素は避けられないものですが、必ずしも悪いものではありません。すべての人間の影響を排除しようとすることは、人間の影響と人間自体を避けるべき問題とすることを意味しますが、これは私の意見では公平な評価ではありません。同時に、ヒューマンバイアスが私たちのモデルの一部であることを現実的に認識し、モデルを私たちの人間の誤りを超えるものと見る誘惑に抵抗するべきです。例えば、私たちがラベルを割り当てる方法などは、意識的または無意識的にデータに意味を宿らせるものです。オリジナルのクリエイティブなコンテンツ、データのラベル、モデルの出力の判断など、私たちの思考プロセスと歴史の痕跡を私たちが作り出すデータに残します。

すべての人間の影響を排除しようとすることは、人間の影響と人間自体を避けるべき問題とすることを意味しますが、これは私の意見では公平な評価ではありません。

さらに、しばしば機械学習の領域では、人間の労力は「本物の」仕事のためではなく、単なる「コンテンツ生成者」としての価値が認識される傾向があります。オリジナルな作品を生み出す人々は、独自のクリエイティブな個人として見られることをやめ、モデルに奉仕する「コンテンツ生成者」として吸収されます。このコンテンツが存在する真の理由である人間性と真の理由を見失い、技術を偶像視することになります。モデルは人々の製品であり、人々に奉仕するために存在しており、それ自体の独立した目的ではありません。もし使われずに実行されないモデルを構築する場合、その目的は何でしょうか？

データは再生可能なリソースか？

もう1つの興味深い問題があります。モデルの能力に制限を課す要因として、未処理の人間生成コンテンツが不足するリスクがあるということです。つまり、私たちの社会がLLMを使用してデータを生成し、Dall-Eを使用して画像を生成するようになり、これらのテクノロジーなしに創造的な人々を刺激しなくなると、これらのモデルの新バージョンをトレーニングするために必要な数兆語と山のような画像が人工的に生成されたコンテンツで汚染されてしまいます。そのコンテンツはもちろん人間のコンテンツに由来しますが、同じではありません。モデル以外の人々によって生成されたコンテンツを区別する非常に良い方法はまだありませんので、将来のモデルのトレーニングデータがこの汚染を含んでいるかどうか、そしてどれだけ含んでいるかを知ることに苦労するでしょう。

一部の人々は、これが実際には大した問題ではないと主張しており、少なくとも一部は人工的な内容でモデルを訓練することは問題ではないと考えていますが、他の人々は、このように人工生成されたコンテンツを食いつぶす場合、訓練の基本プロセスが存在的に変化する、モデル崩壊と呼ばれる形で理論化されています。これは、自身の振る舞いによってモデルが定義的に変化するという、モデルが依存する世界をモデルに影響するという本質的な問題の一例です。これは、データサイエンティストがよく知っているように、LLMに限られたことではありません。どのモデルも人々の行動に影響を与えることで、基礎となるデータ関係の変化によるパフォーマンスのドリフトが発生する可能性があります。

モデルは、モデルが依存する世界に影響を与えるため、その振る舞いによって定義的に変化します。

また、実際に人工的なデータをトレーニングしていなくても、私たちの人間の構成や創造的なプロセスが人工的に作成されたコンテンツによって変化する可能性があると考えている研究者も多数います。LLMによって生成されたテキストを大量に読む場合、モデルのアドバイスを受けながら書いたり、インターネット上で一般的に読んだりすることで、あなたの文章書き方が微妙に変わる可能性がありますか？コミュニティレベルで具体的にどうなるかはまだわかりませんが、これは深刻な懸念です。

人間の影響は機械学習の事実です。これは哲学的な問題です。機械学習を純粋な科学的事業と考える傾向がありますが、それは私たちに作用するものであり、これがいくつかの人々には恐ろしく思える理由の一つです。しかし、実際には、作成されているシステムは人間の介入と人間の創造力の産物です。データの作成と管理によって、機械学習の残りの部分が可能になります。ある意味では、これは私たちにとって安心すべきことです。なぜなら、私たちは機械学習をどのように扱い、どのように使用するかを制御できるからです。機械学習のプロセスは、データの間の関係を数学的な表現に計算するものですが、データは人々によって生成され、私たちの制御下にあります。機械学習とAIは何か異質な、抽象的な力ではなく、私たち自身なのです。

私の仕事の詳細はwww.stephaniekirmer.comでご覧ください。

上記の記事と参考文献のリンクを以下に示します。

https://www.youtube.com/watch?v=bZQun8Y4L2A GPTの状況、Microsoft Build Conference 2023、Andrej Karpathy
www.technologyreview.com%2F2023%2F08%2F07%2F1077324%2Fai-language-models-are-rife-with-political-biases%2F MIT Technology Review、Melissa Heikkilä、2023年8月
https://www.hcaptcha.com/labeling
https://files.eric.ed.gov/fulltext/EJ1390465.pdf
https://arxiv.org/abs/2309.05196
https://bdtechtalks.com/2023/06/19/chatgpt-model-collapse/

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceEditors PickHuman Ai CollaborationMachine learning

Was this article helpful?

93 out of 132 found this helpful