このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています

This AI paper explores the potential of large language models (LLMs) in text annotation tasks, with a focus on ChatGPT.

高品質のラベル付きデータは、特に分類器のトレーニングや教師なしモデルの有効性の評価には必要不可欠です。例えば、学術研究者はしばしばテキストをさまざまなテーマや概念的なカテゴリに分類し、ノイズの多いソーシャルメディアデータを関連性に基づいてフィルタリングしたり、自分の気分や立場を測定したりするために、ラベル付きのデータが必要です。これらのタスクには、教師あり、半教師あり、または教師なしの方法が使用される場合でも、トレーニングセットやベンチマークを提供するためにラベル付きデータが必要です。このようなデータは、意味解析、ヘイトスピーチなどの高度なタスク、そして時折党派のイデオロギーなどのより専門的な目標のために提供される場合もあります。

研究者は通常、ラベルがその概念的なカテゴリに対応していることを確認するために、オリジナルの注釈を行わなければなりません。最近まで、基本的なアプローチは2つしかありませんでした。例えば、研究者によってコーダーとして雇われ、トレーニングされた研究補助員として働く研究助手がいます。第二に、彼らはAmazon Mechanical Turk(MTurk)のようなウェブサイトで働くフリーランサーに頼ることができます。これらの2つのアプローチはしばしば組み合わされ、クラウドワーカーがラベル付きデータを増やし、トレーニングされたアノテーターが小さな基準データセットを作成することがあります。それぞれの戦略には利点と欠点があります。トレーニングされたアノテーターはしばしば高品質のデータを作成しますが、そのサービスは高価です。

しかし、MTurkのデータの品質の低下についての懸念がありました。Appenという企業志向の組織に買収された後、CrowdFlowerやFigureEightなどの他のプラットフォームは学術研究のための実行可能な選択肢ではなくなりました。クラウドワーカーはより手頃な価格で柔軟性がありますが、特に難しい作業や英語以外の言語に対しては品質が向上する可能性があります。チューリッヒ大学の研究者は、大規模言語モデル(LLM)がテキスト注釈タスクにおける潜在能力を検証しました。特に、2022年11月に公開されたChatGPTに焦点を当てました。それにより、MTurkの注釈に比べて、零ショットのChatGPT分類の方が優れたパフォーマンスを示すことが示されています(つまり、追加のトレーニングなしで)。

LLMは、立法的なアイデアの分類、イデオロギーのスケーリング、認知心理学の問題の解決、調査研究のための人間のサンプルのエミュレーションなど、さまざまなタスクに非常にうまく機能しています。いくつかの調査では、ChatGPTが彼らが指定したテキスト注釈タスクを実行する能力を持っている可能性があることが示されましたが、彼らの知識では、徹底的な評価はまだ行われていません。彼らは、以前の研究のために収集した2,382件のツイートのサンプルを分析に使用しました。そのプロジェクトでは、トレーニングされたアノテーター(研究補助員)によって、関連性、姿勢、主題、および2つのフレーム識別のタスクごとにツイートが注釈付けされました。

彼らはMTurkのクラウドワーカーとChatGPTの零ショット分類にジョブを配布し、研究補助員が作成した同じコードブックを使用してChatGPTのパフォーマンスを2つのベンチマークで評価しました:(i)クラウドワーカーと比較した正確さ;および(ii)クラウドワーカーとトレーニングされたアノテーターとの間の間隔コーダーの合意。彼らは、ChatGPTの零ショットの正確さが4つのタスクにおいてMTurkよりも高いことを発見しました。ChatGPTはすべての機能において、MTurkとトレーニングされたアノテーターを上回る間隔コーダーの合意を示しています。

また、ChatGPTはMTurkよりもはるかに手頃な価格です。ChatGPTでの5つのカテゴリ化タスクは約68ドル(25,264の注釈)かかりますが、MTurkでの同じタスクは657ドル(12,632の注釈)かかります。したがって、ChatGPTのコストはわずか0.003ドル、つまり1/3ペニーであり、MTurkよりも約20倍安く、優れた品質を提供します。このコストで全体のサンプルを注釈付けすることや、教師あり学習のための大規模なトレーニングセットを構築することが可能です。

彼らは100,000の注釈をテストし、それが約300ドルかかると結論付けました。これらの結果は、ChatGPTや他のLLMが研究者がデータの注釈付けを行う方法を変え、MTurkのようなプラットフォームのビジネスモデルの一部を覆す可能性があることを示しています。ただし、ChatGPTや他のLLMが広範なコンテキストでどのように機能するかを完全に理解するためには、さらなる研究が必要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「チャンドラヤーン3の着陸:AIとセンサーがISROの壮大な月探査を支援」

宇宙探査の魅惑的な広がりの中で、すべてのミッションは未知へのサイコロのような賭けです。インドの国立宇宙機関であるイン...

機械学習

「ウッドペッカーは、言語モデルにおけるAIの精度を革新している方法とは?」

中国の腾讯YouTu Labと中国科学技術大学(USTC)のAI研究者グループが、Multimodal Large Language Models(MLLM)の幻想問題...

人工知能

スタビリティAIの危機 - CEOの論争の中で主要メンバーが辞任!

ロンドンを拠点とするスタートアップ企業であるStability AI Ltd. はかつて画期的なStable Diffusion AIモデルでテック界を驚...

人工知能

ChatGPTを使用して、忘れられないスローガンを作成する

「ブランドを完璧に象徴するスローガンを作り出すことは、大変な要求ですこのChatGPTのプロンプトを使ってお手伝いしましょう」

機械学習

ビジュアルキャプション:大規模言語モデルを使用して、動的なビジュアルを備えたビデオ会議を補完する

Google Augmented Realityのリサーチサイエンティスト、Ruofei DuとシニアスタッフリサーチサイエンティストのAlex Olwalが投...

AIニュース

欧州とイスラエルのAIファーストスタートアップのための新しいアクセラレータ

この10週間のプログラムは、Googleとそのネットワークの最高の部分を活用して、AIをコアビジネスに使用しているスタートアッ...