このAI論文では、ChatGPTに焦点を当て、テキスト注釈タスクにおける大規模言語モデル(LLM)のポテンシャルを探求しています
This AI paper explores the potential of large language models (LLMs) in text annotation tasks, with a focus on ChatGPT.
高品質のラベル付きデータは、特に分類器のトレーニングや教師なしモデルの有効性の評価には必要不可欠です。例えば、学術研究者はしばしばテキストをさまざまなテーマや概念的なカテゴリに分類し、ノイズの多いソーシャルメディアデータを関連性に基づいてフィルタリングしたり、自分の気分や立場を測定したりするために、ラベル付きのデータが必要です。これらのタスクには、教師あり、半教師あり、または教師なしの方法が使用される場合でも、トレーニングセットやベンチマークを提供するためにラベル付きデータが必要です。このようなデータは、意味解析、ヘイトスピーチなどの高度なタスク、そして時折党派のイデオロギーなどのより専門的な目標のために提供される場合もあります。
研究者は通常、ラベルがその概念的なカテゴリに対応していることを確認するために、オリジナルの注釈を行わなければなりません。最近まで、基本的なアプローチは2つしかありませんでした。例えば、研究者によってコーダーとして雇われ、トレーニングされた研究補助員として働く研究助手がいます。第二に、彼らはAmazon Mechanical Turk(MTurk)のようなウェブサイトで働くフリーランサーに頼ることができます。これらの2つのアプローチはしばしば組み合わされ、クラウドワーカーがラベル付きデータを増やし、トレーニングされたアノテーターが小さな基準データセットを作成することがあります。それぞれの戦略には利点と欠点があります。トレーニングされたアノテーターはしばしば高品質のデータを作成しますが、そのサービスは高価です。
しかし、MTurkのデータの品質の低下についての懸念がありました。Appenという企業志向の組織に買収された後、CrowdFlowerやFigureEightなどの他のプラットフォームは学術研究のための実行可能な選択肢ではなくなりました。クラウドワーカーはより手頃な価格で柔軟性がありますが、特に難しい作業や英語以外の言語に対しては品質が向上する可能性があります。チューリッヒ大学の研究者は、大規模言語モデル(LLM)がテキスト注釈タスクにおける潜在能力を検証しました。特に、2022年11月に公開されたChatGPTに焦点を当てました。それにより、MTurkの注釈に比べて、零ショットのChatGPT分類の方が優れたパフォーマンスを示すことが示されています(つまり、追加のトレーニングなしで)。
- GPT-4のようなモデルは、行動能力を与えられた場合に安全に振る舞うのか?:このAI論文では、「MACHIAVELLIベンチマーク」を導入して、マシン倫理を向上させ、より安全な適応エージェントを構築することを提案しています
- 「FreedomGPT」という名称のAI技術をご紹介しますこの技術はオープンソースであり、アルパカ上に構築され、倫理的な考慮事項を認識し優先するようにプログラムされています何の検閲フィルターもなく、自由な議論を可能にします
- 「AIイメージジェネレータとは何ですか?2023年のトップAIイメージジェネレータ」
LLMは、立法的なアイデアの分類、イデオロギーのスケーリング、認知心理学の問題の解決、調査研究のための人間のサンプルのエミュレーションなど、さまざまなタスクに非常にうまく機能しています。いくつかの調査では、ChatGPTが彼らが指定したテキスト注釈タスクを実行する能力を持っている可能性があることが示されましたが、彼らの知識では、徹底的な評価はまだ行われていません。彼らは、以前の研究のために収集した2,382件のツイートのサンプルを分析に使用しました。そのプロジェクトでは、トレーニングされたアノテーター(研究補助員)によって、関連性、姿勢、主題、および2つのフレーム識別のタスクごとにツイートが注釈付けされました。
彼らはMTurkのクラウドワーカーとChatGPTの零ショット分類にジョブを配布し、研究補助員が作成した同じコードブックを使用してChatGPTのパフォーマンスを2つのベンチマークで評価しました:(i)クラウドワーカーと比較した正確さ;および(ii)クラウドワーカーとトレーニングされたアノテーターとの間の間隔コーダーの合意。彼らは、ChatGPTの零ショットの正確さが4つのタスクにおいてMTurkよりも高いことを発見しました。ChatGPTはすべての機能において、MTurkとトレーニングされたアノテーターを上回る間隔コーダーの合意を示しています。
また、ChatGPTはMTurkよりもはるかに手頃な価格です。ChatGPTでの5つのカテゴリ化タスクは約68ドル(25,264の注釈)かかりますが、MTurkでの同じタスクは657ドル(12,632の注釈)かかります。したがって、ChatGPTのコストはわずか0.003ドル、つまり1/3ペニーであり、MTurkよりも約20倍安く、優れた品質を提供します。このコストで全体のサンプルを注釈付けすることや、教師あり学習のための大規模なトレーニングセットを構築することが可能です。
彼らは100,000の注釈をテストし、それが約300ドルかかると結論付けました。これらの結果は、ChatGPTや他のLLMが研究者がデータの注釈付けを行う方法を変え、MTurkのようなプラットフォームのビジネスモデルの一部を覆す可能性があることを示しています。ただし、ChatGPTや他のLLMが広範なコンテキストでどのように機能するかを完全に理解するためには、さらなる研究が必要です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles