このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています

This AI paper explores the potential of large language models (LLMs) in text annotation tasks, with a focus on ChatGPT.

高品質のラベル付きデータは、特に分類器のトレーニングや教師なしモデルの有効性の評価には必要不可欠です。例えば、学術研究者はしばしばテキストをさまざまなテーマや概念的なカテゴリに分類し、ノイズの多いソーシャルメディアデータを関連性に基づいてフィルタリングしたり、自分の気分や立場を測定したりするために、ラベル付きのデータが必要です。これらのタスクには、教師あり、半教師あり、または教師なしの方法が使用される場合でも、トレーニングセットやベンチマークを提供するためにラベル付きデータが必要です。このようなデータは、意味解析、ヘイトスピーチなどの高度なタスク、そして時折党派のイデオロギーなどのより専門的な目標のために提供される場合もあります。

研究者は通常、ラベルがその概念的なカテゴリに対応していることを確認するために、オリジナルの注釈を行わなければなりません。最近まで、基本的なアプローチは2つしかありませんでした。例えば、研究者によってコーダーとして雇われ、トレーニングされた研究補助員として働く研究助手がいます。第二に、彼らはAmazon Mechanical Turk(MTurk)のようなウェブサイトで働くフリーランサーに頼ることができます。これらの2つのアプローチはしばしば組み合わされ、クラウドワーカーがラベル付きデータを増やし、トレーニングされたアノテーターが小さな基準データセットを作成することがあります。それぞれの戦略には利点と欠点があります。トレーニングされたアノテーターはしばしば高品質のデータを作成しますが、そのサービスは高価です。

しかし、MTurkのデータの品質の低下についての懸念がありました。Appenという企業志向の組織に買収された後、CrowdFlowerやFigureEightなどの他のプラットフォームは学術研究のための実行可能な選択肢ではなくなりました。クラウドワーカーはより手頃な価格で柔軟性がありますが、特に難しい作業や英語以外の言語に対しては品質が向上する可能性があります。チューリッヒ大学の研究者は、大規模言語モデル(LLM)がテキスト注釈タスクにおける潜在能力を検証しました。特に、2022年11月に公開されたChatGPTに焦点を当てました。それにより、MTurkの注釈に比べて、零ショットのChatGPT分類の方が優れたパフォーマンスを示すことが示されています(つまり、追加のトレーニングなしで)。

LLMは、立法的なアイデアの分類、イデオロギーのスケーリング、認知心理学の問題の解決、調査研究のための人間のサンプルのエミュレーションなど、さまざまなタスクに非常にうまく機能しています。いくつかの調査では、ChatGPTが彼らが指定したテキスト注釈タスクを実行する能力を持っている可能性があることが示されましたが、彼らの知識では、徹底的な評価はまだ行われていません。彼らは、以前の研究のために収集した2,382件のツイートのサンプルを分析に使用しました。そのプロジェクトでは、トレーニングされたアノテーター(研究補助員)によって、関連性、姿勢、主題、および2つのフレーム識別のタスクごとにツイートが注釈付けされました。

彼らはMTurkのクラウドワーカーとChatGPTの零ショット分類にジョブを配布し、研究補助員が作成した同じコードブックを使用してChatGPTのパフォーマンスを2つのベンチマークで評価しました:(i)クラウドワーカーと比較した正確さ;および(ii)クラウドワーカーとトレーニングされたアノテーターとの間の間隔コーダーの合意。彼らは、ChatGPTの零ショットの正確さが4つのタスクにおいてMTurkよりも高いことを発見しました。ChatGPTはすべての機能において、MTurkとトレーニングされたアノテーターを上回る間隔コーダーの合意を示しています。

また、ChatGPTはMTurkよりもはるかに手頃な価格です。ChatGPTでの5つのカテゴリ化タスクは約68ドル(25,264の注釈)かかりますが、MTurkでの同じタスクは657ドル(12,632の注釈)かかります。したがって、ChatGPTのコストはわずか0.003ドル、つまり1/3ペニーであり、MTurkよりも約20倍安く、優れた品質を提供します。このコストで全体のサンプルを注釈付けすることや、教師あり学習のための大規模なトレーニングセットを構築することが可能です。

彼らは100,000の注釈をテストし、それが約300ドルかかると結論付けました。これらの結果は、ChatGPTや他のLLMが研究者がデータの注釈付けを行う方法を変え、MTurkのようなプラットフォームのビジネスモデルの一部を覆す可能性があることを示しています。ただし、ChatGPTや他のLLMが広範なコンテキストでどのように機能するかを完全に理解するためには、さらなる研究が必要です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「インド、人工知能を利用し言語の壁を解消へと向かう」

インドは人工知能(AI)を活用し、言語の壁を乗り越え、多様な人口の包括的参加を確保しようとしています。南西部の州である...

データサイエンス

「線形代数からディープラーニングまで 7冊の本(2023年冬のアップデート)」

「Towards Data Science」への初めての投稿では、私は線形代数から現代のディープラーニングまで、あらゆる内容をカバーする...

機械学習

「大規模言語モデルの微調整方法:ステップバイステップガイド」

2023年、アルパカ、ファルコン、ラマ2、およびGPT-4のような大規模言語モデル(LLM)の台頭は、人工知能の民主化の傾向を示し...

人工知能

「AIツールを使用してマイクロサービス開発の生産性を向上させる」

「AIツールをマイクロサービス開発に利用することで、コーディングプロセスが効率化され、特に大規模なデータモデルにおいて...

人工知能

Segmind APIとPostmanを使用した簡単なGenAIアプリの統合

はじめに 人工知能(AI)をアプリケーションに統合することは、ビジネス競争力を維持するためにますます必要になっています。...

AIニュース

「ChatGPTを使用して高変換率のランディングページを作成する」

「私たちは100のランディングページを分析し、すべての教訓をChatGPTのプロンプトにまとめました自分で確認してください...」