「鳩の中に猫を投げ込む？大規模言語モデルによる人間の計算の補完」

Supplementing Human Calculation with Large-scale Language Models Throwing a Cat into a Pigeon

生成的人工知能の時代は、クラウドワークの改善の機会を提供し、必ずしもそれを置き換えるものではありません

私は常に語源に興味を持っています。言葉やフレーズがどのように意味を持つようになったのかには、しばしば興味深い物語があります。時代と共に変わり、時代と共に交流します。メカニカル・トルク（Mechanical Turk）は、18世紀にハンガリーの作家兼発明家であるヴォルフガング・フォン・ケンペレンが作ったチェスをする人間のような機械でした。メカニカル・トルクはヨーロッパを巡回し、ナポレオン・ボナパルトやベンジャミン・フランクリンといった有名人と伝説的なチェス対決を繰り広げました。後に、その秘密のソースが、実際の人間のチェスの達人が足元のキャビネットに隠れており、そこから人型の動きを制御していたことが明らかになりました。

この物語は、2005年に立ち上げられたAmazon Mechanical Turkクラウドソーシングプラットフォームの命名のインスピレーションとなりました。このプラットフォームは、現代の代替手段では解決できないタスクを解決するために設計され、人間の入力や知能が必要でした。こうした文脈で、「人工の人工知能」という概念が形を成しました。そこでは、人間が機械の能力を超えた知能の源として機能します。私たちはそれから長い道のりを経て、まったく新しい「人工の人工の人工知能」という概念の先駆けに立っています。そうです、3つの「人工」です。頭でくるみを割ろうとする前に、いくつかの思い出の軌道を素早く辿りましょう。

クラウドソーシングの初期の日々

2004年に出版されたジェームズ・スロウィキの「群衆の知恵」という本では、賢明な群衆を形成するために必要な属性を探求し、統合しました。群衆の中の個々の人よりもより良い意思決定をすることが多い賢明な群衆を形成するためには、意見の多様性、独立した判断、分散した知識が重要な属性であると特定しました。2006年、ジェフ・ハウは、Wired誌の記事で「クラウドとアウトソーシング」という言葉を組み合わせた「クラウドソーシング」という用語を作りました。彼は、ビジネスがオープンコールを通じて分散したオンラインコミュニティの集合能力を活用して特定のタスクを達成し始めたことを述べました。

初めて立ち上げられたAmazon Mechanical Turkは繁栄し、数年の間に世界中の何十万人もの人々がプラットフォーム上でタスクを完了することで生計を立てる機会を見つけました。これにより、世界中のクラウドソーシングプラットフォームの成長が促進され、オンラインのマイクロタスククラウドワークの新しい経済を築き固めました。研究者や実践者は、さまざまなタスクを達成するためにクラウドソーシングプラットフォームに頼るようになり、高度に複雑なタスクでも分解してクラウドソーシングすることができることを示しました。クラウドワーカーがタスクを効果的に完了するためのシステムやツールが提案されました。

2009年には、ImageNetのリリースが機械学習の分野全体を刺激しました。ImageNetは、5,000以上のシネットを持つ12つのサブツリーに3.2百万枚以上の画像を含む、クラウドソーシングを通じた画像データの収集の大規模な取り組みでした[1]。これにより、オブジェクト認識や画像分類など、いくつかのコンピュータビジョンタスクの進歩に前例のない機会が提供されました。

人間が生成したデータに頼ることの危険性に関連する問題の震源地を忘れることはできません。認知的および系統的なバイアスの影響を受けやすい人間生成データへの依存に伴う揺れが、多くの人々によって感じられました。2013年、クラウドソーシングコミュニティの有名な研究者グループが、「クラウドワークの未来」という論文を執筆し、パラダイムの状況と即座に対処する必要がある一連の課題について考察しました[2]。これらの課題の多くは、10年以上経過した今でも解決されていないままですが、かなりの進歩があったにもかかわらず。データの品質（バイアスの伝播など）に関するよく文書化された問題、プラットフォーム上のパワーアシンメトリー、悲惨な時給、不公平な作業の拒否、見えない労働、不健全な作業環境など、多くの弱点があります。一部では、破綻した仕事のパラダイムと見なされるものの、歴史的なタイムラインを強調する注目すべき結果があり、クラウドソーシングの力が、ほんの数人が予測しただけの技術的進歩の速度に不可欠な貢献をしていることは明らかです。

興味深い生成型AIの時代

現在、世界中の主要メディアは、生成型AIや大規模言語モデルの民主化がもたらす意味についての大まかな物語に埋もれています。AIによって、予想された方法や予期せぬ方法で多くの人々の生活が触れられるでしょう。そして、まず最初に、AI革命を推進してきたのは、舞台裏で人間が骨の折れる仕事をしてきたのです。メアリー・グレイとシド・スリが『ゴーストワーク』[3]で忘れられない形で述べたように、「AIの影に注目すれば、それを動かしている人間が見つかるでしょう」。

誇張した予測や扇情的な見出しは、この時代の人間の役割を不安なハトに例え、LLMを大胆な猫に例えています。比喩的な猫が群れを乱し、それを散らすという意味です。しかし、生成型AIモデルの新時代の到来は、人間の入力に対して真に何を意味するのでしょうか？将来の技術を形作る上で、人間の入力の必要性はほとんど消え去ったのでしょうか？この記事の残りでは、私はこの問いに否定的な回答をし、今後必要とされる人間の入力の性質が変化するという主な変化を予想すると主張します。

私は最近、生成型AIモデルの出現を受けて、人間計算のワークフローがどのように受け入れられるかについてのワークショップ論文を共同執筆しました[4]。この研究は、今年早くにハンブルクで開催された主要なHCIカンファレンス、ACM CHI 2023の生成型AIワークショップで発表されました。私たちは、大規模言語モデル（LLM）が既存のクラウドソーシングワークフローを補完する役割を果たす可能性を強調し、そのようなワークフローが実証的に評価される方法について議論しました。

クラウドソーシングワークフローの基礎

クラウドソーシングワークフローは、大規模なタスクがクラウドワーカーによって完了されるために、どのようにタスクが分割されるかを管理する独自のパターンです。クラウドパワードワードプロセッサのSoylentは、Find-Fix-Verifyワークフローを適用して、タスクを生成とレビューの段階に分割して高品質なテキストを作成します。これにより、「ライターはMechanical Turkの労働者に依頼して、文書の一部を要求に応じて短くし、校正し、編集することができるようになりました[5]」。 Iterate-and-Voteワークフローは、画像の説明を作成するために展開され、労働者にまず画像の説明を書くように依頼します（例えば、視覚障害のある人々を支援するための目標を持つ）。その後、投票タスクを行い、最適な説明に収束するために使用されます[6]。 Map-Reduceワークフローは、「並列に実行できるタスクに作業を分割し、タスクを労働者に割り当て、それらの間の依存関係を管理する[7]」と提案されています。 CrowdWeaverなどのツールは、複雑なワークフローの管理、タスク間のデータ共有のサポート、監視ツールやリアルタイムのタスク調整機能を提供するために提案されています[8]。

LLMを活用したクラウドソーシングワークフローの強化

言語モデルの出現によって、そのようなワークフローやフレームワーク、ツールが完全に日常的なものになることはないでしょう。それどころか、クラウドソーシングコミュニティは、効果的なワークフロー、人間を含むアプローチ、ハイブリッドな人間-AIシステムの構築に関する数十年にわたる研究を基に、LLMがもたらす利点を受け入れることができる特異な立場にあります。

技術の開発における人間中心の視点は、日常生活での人間の経験を強化し、人々の能力を増幅することに焦点を当てています。もしLLMがクラウドワーカーがタスクを完了するのに役立つことができるなら、それらは受け入れられ、何らかの方法で労働者がタスクをより正確かつ迅速に完了することを促進するように統合されるべきです。

情報検索の研究者（私が過去10年間で関わってきたコミュニティ）は、LLMの普及が評価のための関連性判定の人間注釈者の役割にどのような意味を持つかを最近考察しています[9]。彼らは、人間の判断から完全に自動化された評価までの連携のスペクトルを提案しました（人間の判断から自動評価まで、人気のある自動化のレベルに類似）。著者たちは、アノテーションタスクの支援能力とそれに伴うリスクを対比させることによって、LLMをアノテーションタスクの支援能力として引き込むことの潜在的な利点を探究しました。LLMは、評価コレクションの作成において注釈コストを削減できることは明らかです。ただし、そのようなコレクションが人間によって作成されたものと系統的に異なるかどうか、そのようなアーティファクトが情報検索システムの評価やその結果、将来のシステム設計にどのように影響するかは不明です。

ワークフロー内の個々の書き込みや分類タスクをサポートするだけでなく、研究者はクラウドワーカーを支援するためにLLMの応用も探求しています。Liuらは、GPT-3の生成能力と人間の評価能力を組み合わせて、トレーニングセットとして使用されるとより効果的なモデルを生み出す新しい自然言語推論データセットを作成しました[10]。同様に、他の研究者は、ダイナミックな敵対的データコレクションの作成を支援する「生成アノテーションアシスタント」を導入し、コレクションの収集率を大幅に改善しました[11]。ただし、LLMがクラウドソーシングワークフローの効果をどのように改善できるか、そしてそのようなワークフローが総合的に評価される方法については、まだ十分に理解されていない問題がいくつかあります。

道のりには多くのハードルがありますか？

人間と同様に、LLM（大規模言語モデル）もバイアスや不公平さに陥ることがあります。一方で、先行研究では、人間の注釈者が注釈タスクを完了する際に自分自身の意見に陥り、結果として系統的なバイアスがデータ収集に入り込むことが示されています[12]。他の研究では、注釈プロセス中に生じた潜在的な認知的バイアスに対抗するか、報告するためのチェックリストが提案されています[13]。一方で、最近の研究では、LLMには差別的な態度やステレオタイプのバイアスが存在することが明らかになっています[14, 15]。

人間の計算およびクラウドソーシング研究コミュニティ（HCOMP）は、クラウドワーカーから高品質なデータを収集するための効果的な手法、インターフェース、尺度、ツールをいくつか開発しています。LLMを意思決定パイプラインに統合する際に、このような品質に関連する保証がどのように定義されるかについて、私たちが共同で解決策を見つけるのは時間の問題です。

クラウドソーシングワークフローにLLMを統合することは、表面上は非常に簡単に見えるかもしれません。複雑なシステムに関連する解決策の提案と同様に、言うは易く行うは難しいものです。クラウドソーシングには、多くのステークホルダーが関与しています。大規模な注釈を集めたいと考えるタスクリクエスター、報酬と引き換えに協力するクラウドワーカー、このトランザクションが行われるインフラを提供し、マーケットプレイスとして機能するプラットフォーム、そして開発やダウンストリームの取り組みで開発または構築された製品や技術の間接的なエンドユーザーが含まれます。LLMをワークフローに統合することの影響は、異なる方法で各ステークホルダーに影響を与える可能性があります。

クラウドワーカーがLLMを活用してインテリジェントなワークフローを実現することで、効率的かつ効果的な作業が可能になり、コストを増やさずに作業量を増やすことができる可能性があります。しかし、LLMをクラウドソーシングワークフローの一部として組み込むことによって生じるリスクと報酬をより良く理解するために、さらなる研究が必要です。LLMの設計、開発、統合に責任を持つのは誰であり、責任の必要性を考慮する必要がありますか？

クラウドワーカーはこれまで生産性を向上させ、自分の作業効率や作業環境、条件を改善するために自己の能力を活かすように努めてきました。今や、クラウドソーシングプラットフォームとタスクリクエスターは、クラウドワーカーがLLMベースのソリューションを活用して、成功したタスク完了を支援し、作業経験を改善および拡張する方法をより良く理解するための共同責任を負うべきではないでしょうか。

人工的な人工的な人工知能と可能性の未来

最近の事例研究では、テキスト要約タスクにおける「人間」からのクラウドソーシングされたデータが実際に人間から生成されたものなのかどうかについて調査されました。研究者は、彼らのAmazon Mechanical Turkでの研究において、30％以上のクラウドワーカーがすでにLLMに頼っていることを支持する証拠を見つけました[16]。この研究は44人のクラウドワーカーからの洞察を報告していますが、数値はあくまで参考程度であり、クラウドワーカーが彼らの生産性を向上させ、収益を最大化し、クラウドソーシングマーケットプレイスでの時間を改善するためにLLMベースのソリューションに頼る可能性が高まっているという不可欠な見通しを反映しています。これが「人工的な人工的な人工知能」という概念が浮かび上がる場所です-クラウドワーカーがAI（LLMからの支援）を利用して需要に応じて「人間」の入力を提供する可能性があることを指します。

Figure: An illustration depicting the emergence of “artificial artificial artificial intelligence” coined in [29] from AI (1) to AAI (2) and finally AAAI (3). Source: Image by author. — 図: [29]で作られた「人工的な人工的な人工知能」の出現を描いたイラスト。AI（1）からAAI（2）そして最終的にAAAI（3）へ。出典: 著者による画像。

LLMから得られる情報の透明性と説明可能性に関しては、人間から引き出すことができるものと比較してさらなる検討が必要です。クラウドワーカーが注釈などの意思決定を伴うタスクを完了する際、タスクリクエスターは追加の質問を通じて意味のある根拠を抽出することができます。クラウドワーカーは、必要に応じてこのような洞察を提供することができます。しかし、現在のところ、LLMでは同様のことは実現できません。モデルの説明可能性についての方法は存在しますが、人間の場合と同様の効果を示すものはありません。LLMを「ブラックボックス」と見なすという認識は、タスクリクエスターやクラウドソーシングプラットフォームが採用を妨げ、クラウドワーカーがそのようなツールに適切に依存することを妨げる要因となる可能性があります。

人間とLLM（Large Language Models）？未知の可能性が広がる中、興味深い問いが数多くありますが、そのほんの一握りの答えにしかたどり着いていません。この技術の進歩を活かしてクラウドワークの改善を図るチャンスを掴むことは、ハチの巣をかき回すよりも、帆に風を受けることに似ています。人間が主役となり、美しい未来を形作るために、さあ忙しく取り組みましょう。

参考文献

Deng, J., Dong, W., Socher, R., Li, L. J., Li, K., & Fei-Fei, L. (2009, June). Imagenet: A large-scale hierarchical image database. In 2009 IEEE Conference on Computer Vision and Pattern Recognition (pp. 248–255). IEEE.
Kittur, A., Nickerson, J.V., Bernstein, M., Gerber, E., Shaw, A., Zimmerman, J., Lease, M. and Horton, J., 2013, February. The future of crowd work. In Proceedings of the 2013 conference on Computer supported cooperative work (pp. 1301–1318).
Gray, M. L., & Suri, S. (2019). Ghost work: How to stop Silicon Valley from building a new global underclass. Eamon Dolan Books.
Allen, G., He, G., Gadiraju, U. Power-up! What Can Generative Models Do for Human Computation Workflows? In Proceedings of the Generative AI Workshop at ACM International Conference on Human Factors in Computing Systems (CHI 2023).
Bernstein, Michael S., Greg Little, Robert C. Miller, Björn Hartmann, Mark S. Ackerman, David R. Karger, David Crowell, and Katrina Panovich. “Soylent: a word processor with a crowd inside.” In Proceedings of the 23rd annual ACM symposium on User Interface Software and Technology, pp. 313–322. 2010.
Little, G., Chilton, L. B., Goldman, M., & Miller, R. C. (2009, June). Turkit: Tools for Iterative Tasks on Mechanical Turk. In Proceedings of the ACM SIGKDD workshop on human computation (pp. 29–30).
Kittur, A., Smus, B., Khamkar, S., & Kraut, R. E. (2011, October). Crowdforge: Crowdsourcing complex work. In Proceedings of the 24th annual ACM symposium on User interface software and technology (pp. 43–52).
Kittur, A., Khamkar, S., André, P. and Kraut, R., 2012, February. CrowdWeaver: visually managing complex crowd work. In Proceedings of the ACM 2012 Conference on Computer Supported Cooperative Work (pp. 1033–1036).
Faggioli, G., Dietz, L., Clarke, C., Demartini, G., Hagen, M., Hauff, C., Kando, N., Kanoulas, E., Potthast, M., Stein, B. and Wachsmuth, H., 2023. Perspectives on Large Language Models for Relevance Judgment. arXiv preprint arXiv:2304.09161.
Liu, Z., Roberts, R.A., Lal-Nag, M., Chen, X., Huang, R. and Tong, W., 2021. AI-based language models powering drug discovery and development. Drug Discovery Today, 26(11), pp.2593–2607.
Bartolo, M., Thrush, T., Riedel, S., Stenetorp, P., Jia, R. and Kiela, D., 2021. Models in the loop: Aiding crowd workers with generative annotation assistants. arXiv preprint arXiv:2112.09062.
Hube, C., Fetahu, B. and Gadiraju, U., 2019, May. Understanding and mitigating worker biases in the crowdsourced collection of subjective judgments. In Proceedings of the 2019 CHI Conference on Human Factors in Computing Systems (pp. 1–12).
Draws, T., Rieger, A., Inel, O., Gadiraju, U., & Tintarev, N. (2021, October). A checklist to combat cognitive biases in crowdsourcing. In Proceedings of the AAAI conference on human computation and crowdsourcing (Vol. 9, pp. 48–59).
Abid, A., Farooqi, M. and Zou, J., 2021, July. Persistent anti-muslim bias in large language models. In Proceedings of the 2021 AAAI/ACM Conference on AI, Ethics, and Society (pp. 298–306).
Nadeem, M., Bethke, A. and Reddy, S., 2020. StereoSet: Measuring stereotypical bias in pre-trained language models. arXiv preprint arXiv:2004.09456.
Veselovsky, V., Ribeiro, M. H., & West, R. (2023). Artificial Artificial Artificial Intelligence: Crowd Workers Widely Use Large Language Models for Text Production Tasks. arXiv preprint arXiv:2306.07899.

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceCrowdsourcingHuman ComputationHuman IntelligenceLarge Language Models

Was this article helpful?

93 out of 132 found this helpful

「鳩の中に猫を投げ込む？大規模言語モデルによる人間の計算の補完」

生成的人工知能の時代は、クラウドワークの改善の機会を提供し、必ずしもそれを置き換えるものではありません

クラウドソーシングの初期の日々

興味深い生成型AIの時代

クラウドソーシングワークフローの基礎

LLMを活用したクラウドソーシングワークフローの強化

道のりには多くのハードルがありますか？

人工的な人工的な人工知能と可能性の未来

参考文献

Was this article helpful?

「新たなホワイトハウスの協定に基づき、AIの巨大企業が自社のアルゴリズムに外部からの調査を許可することを誓います」

「アノテーターのように考える：データセットのラベリング指示の生成」

機械学習

「AIディープフェイクの作り方（初心者向け）」

Deep learning論文の数学をPyTorchで効率的に実装する：SimCLR コントラスティブロス

オラクルは、AIとクラウドを基盤とした未来のビジョンを明らかにしました

このAI論文は、検索エンジンに対して大規模な言語モデルが事実確認の効率性にどのように比較されるか、明らかにします

ChatGPTが知能的ですか？科学的なレビュー

AIHelperBotとの出会い秒単位でSQLクエリを構築する人工知能（AI）ベースのSQLエキスパート