このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています

This AI paper explores the potential of large language models (LLMs) in text annotation tasks, with a focus on ChatGPT.

高品質のラベル付きデータは、特に分類器のトレーニングや教師なしモデルの有効性の評価には必要不可欠です。例えば、学術研究者はしばしばテキストをさまざまなテーマや概念的なカテゴリに分類し、ノイズの多いソーシャルメディアデータを関連性に基づいてフィルタリングしたり、自分の気分や立場を測定したりするために、ラベル付きのデータが必要です。これらのタスクには、教師あり、半教師あり、または教師なしの方法が使用される場合でも、トレーニングセットやベンチマークを提供するためにラベル付きデータが必要です。このようなデータは、意味解析、ヘイトスピーチなどの高度なタスク、そして時折党派のイデオロギーなどのより専門的な目標のために提供される場合もあります。

研究者は通常、ラベルがその概念的なカテゴリに対応していることを確認するために、オリジナルの注釈を行わなければなりません。最近まで、基本的なアプローチは2つしかありませんでした。例えば、研究者によってコーダーとして雇われ、トレーニングされた研究補助員として働く研究助手がいます。第二に、彼らはAmazon Mechanical Turk(MTurk)のようなウェブサイトで働くフリーランサーに頼ることができます。これらの2つのアプローチはしばしば組み合わされ、クラウドワーカーがラベル付きデータを増やし、トレーニングされたアノテーターが小さな基準データセットを作成することがあります。それぞれの戦略には利点と欠点があります。トレーニングされたアノテーターはしばしば高品質のデータを作成しますが、そのサービスは高価です。

しかし、MTurkのデータの品質の低下についての懸念がありました。Appenという企業志向の組織に買収された後、CrowdFlowerやFigureEightなどの他のプラットフォームは学術研究のための実行可能な選択肢ではなくなりました。クラウドワーカーはより手頃な価格で柔軟性がありますが、特に難しい作業や英語以外の言語に対しては品質が向上する可能性があります。チューリッヒ大学の研究者は、大規模言語モデル(LLM)がテキスト注釈タスクにおける潜在能力を検証しました。特に、2022年11月に公開されたChatGPTに焦点を当てました。それにより、MTurkの注釈に比べて、零ショットのChatGPT分類の方が優れたパフォーマンスを示すことが示されています(つまり、追加のトレーニングなしで)。

LLMは、立法的なアイデアの分類、イデオロギーのスケーリング、認知心理学の問題の解決、調査研究のための人間のサンプルのエミュレーションなど、さまざまなタスクに非常にうまく機能しています。いくつかの調査では、ChatGPTが彼らが指定したテキスト注釈タスクを実行する能力を持っている可能性があることが示されましたが、彼らの知識では、徹底的な評価はまだ行われていません。彼らは、以前の研究のために収集した2,382件のツイートのサンプルを分析に使用しました。そのプロジェクトでは、トレーニングされたアノテーター(研究補助員)によって、関連性、姿勢、主題、および2つのフレーム識別のタスクごとにツイートが注釈付けされました。

彼らはMTurkのクラウドワーカーとChatGPTの零ショット分類にジョブを配布し、研究補助員が作成した同じコードブックを使用してChatGPTのパフォーマンスを2つのベンチマークで評価しました:(i)クラウドワーカーと比較した正確さ;および(ii)クラウドワーカーとトレーニングされたアノテーターとの間の間隔コーダーの合意。彼らは、ChatGPTの零ショットの正確さが4つのタスクにおいてMTurkよりも高いことを発見しました。ChatGPTはすべての機能において、MTurkとトレーニングされたアノテーターを上回る間隔コーダーの合意を示しています。

また、ChatGPTはMTurkよりもはるかに手頃な価格です。ChatGPTでの5つのカテゴリ化タスクは約68ドル(25,264の注釈)かかりますが、MTurkでの同じタスクは657ドル(12,632の注釈)かかります。したがって、ChatGPTのコストはわずか0.003ドル、つまり1/3ペニーであり、MTurkよりも約20倍安く、優れた品質を提供します。このコストで全体のサンプルを注釈付けすることや、教師あり学習のための大規模なトレーニングセットを構築することが可能です。

彼らは100,000の注釈をテストし、それが約300ドルかかると結論付けました。これらの結果は、ChatGPTや他のLLMが研究者がデータの注釈付けを行う方法を変え、MTurkのようなプラットフォームのビジネスモデルの一部を覆す可能性があることを示しています。ただし、ChatGPTや他のLLMが広範なコンテキストでどのように機能するかを完全に理解するためには、さらなる研究が必要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

AI、デジタルツインが次世代の気候研究イノベーションを解き放つ

AIと高速計算は、気候研究者が気候研究のブレークスルーを達成するために必要な奇跡を実現するのに役立つだろう、とNVIDIAの...

機械学習

ロボットスキル合成のための言語から報酬への変換

Googleの研究科学者、Wenhao YuとFei Xiaによる投稿 エンドユーザーがロボットに新しいタスクを教えるためのインタラクティブ...

AIニュース

「私たちの10の最大のAIの瞬間」

過去25年間の私たちのトップ10のAIの瞬間をまとめました

機械学習

ジェンAIの活用:攻撃型AIに対するサイバー強靭性の構築

「創発型人工知能(GenAI)は、セキュリティの風景を革新し、新しい機会と新しい課題を創り出しています」

データサイエンス

テキストから画像への革命:SegmindのSD-1Bモデルが最速のゲームで登場

紹介 Segmind AIは、画期的なオープンソースのテキストから画像への生成モデルであるSSD-1B(Segmind Stable Diffusion 1B)...

AI研究

ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介

複数の専門サブネットワークの出力を組み合わせて予測や意思決定を行うために設計されたニューラルネットワークモデルは、エ...