大規模言語モデルは、テキスト評価のタスクで人間を置き換えることができるのか? このAI論文では、テキストの品質を評価するためにLLMを使用し、人間の評価の代替手段として提案しています

Can large-scale language models replace humans in text evaluation tasks? This AI paper proposes using LLM to evaluate the quality of text as an alternative to human evaluation.

I had trouble accessing your link so I’m going to try to continue without it.

以下のHTMLを日本語に翻訳します(HTMLコードは結果に含めます):

自然言語処理モデルとテキスト品質を示すアルゴリズムのパフォーマンスを評価するために、人間の評価が使用されてきました。しかし、人間の評価は一貫しているわけではなく、再現性がない場合もあります。同じ人間の評価者を募集し、評価基準の主観性や解釈の違いを含むさまざまな要素(評価基準の解釈など)により、同じ評価を返すことは困難です。

台湾国立大学の研究者は、この再現性の問題に対処するために、「大規模言語モデル」(人間の言語をモデル化するために訓練されたモデル)の使用を研究しました。彼らは、人間の評価と同じ指示、評価対象のサンプル、および質問を大規模言語モデルに提示し、それらの質問に対する応答を大規模言語モデルに生成させました。彼らは、オープンエンドのストーリー生成と敵対的攻撃という2つの自然言語処理タスクで、人間と大規模言語モデルの評価を使用してテキストを評価しました。

「オープンエンドのストーリー生成」では、人間と生成モデル(GPT-2)によって生成されたストーリーの品質を、大規模言語モデルと人間が評価することで検証しました。

そのために、評価指示、生成されたストーリーの断片、および評価質問に基づいて、それぞれ文法の正確さ、一貫性、好み、関連性の4つの属性に基づいてリケルト尺度(5段階)で評価されるアンケートを作成しました。

人間の評価では、ユーザーは準備されたアンケートに回答します。大規模言語モデルによる評価では、アンケートをプロンプトとして入力し、大規模言語モデルから出力を取得します。研究者は、T0、text-curie-001、text-davinci-003、ChatGPTという4つの大規模言語モデルを使用しました。人間の評価には、有名な英語教師を使用しました。これらの大規模言語モデルと英語教師は、人間が書いたストーリーとGPT-2が生成したストーリーをそれぞれ200件評価しました。英語教師による評価では、人間が書いたストーリーに対して4つの属性(文法的正確さ、結束性、好み、関連性)のすべてにおいて好意的な評価が示されました。これは、英語教師が生成モデルによって書かれたストーリーと人間によって書かれたストーリーの品質の違いを区別できることを示しています。しかし、T0とtext-curie-001は人間が書いたストーリーに明確な優位性を示しません。これは、大規模言語モデルがオープンエンドのストーリー生成を評価する際には、人間の専門家よりも能力が低いことを示しています。一方、text-davinci-003は人間が書いたストーリーと英語教師に明確な優位性を示しました。さらに、ChatGPTも人間が書いたストーリーに高い評価を示しました。

彼らは、AIの文を分類する能力をテストする敵対的攻撃のタスクを調査しました。彼らは、文をいくつかの敵対的攻撃(文をわずかに変更するための同義語の使用)で分類する能力をテストしました。そして、攻撃がAIの文の分類能力にどのように影響を与えるかを評価しました。これは、大規模言語モデル(ChatGPT)と人間を使用して行いました。

敵対的攻撃に対して、英語教師(人間の評価)は、敵対的攻撃によって生成された文を流暢さと意味の保存の点で元の文よりも低く評価しました。さらに、ChatGPTは敵対的攻撃の文に対して高い評価を与えました。また、ChatGPTは敵対的攻撃の文を元の文よりも低く評価しました。全体的に、大規模言語モデルは敵対的攻撃の文と元の文の品質を人間と同じように評価しました。

研究者は、大規模言語モデルによる評価の以下の4つの利点を指摘しています:再現性、独立性、コスト効率と速度、および不適切なコンテンツへの露出の低減。ただし、大規模言語モデルは事実の誤解釈にも影響を受けやすく、学習方法にはバイアスが導入される可能性があります。さらに、これらのモデルには感情がないため、感情を含むタスクの評価において効果が制限される可能性があります。人間の評価と大規模言語モデルによる評価は、それぞれ独自の強みと弱点を持っています。最適な効果は、人間とこれらの大規模モデルの組み合わせによって達成される可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

ユーザーエクスペリエンスの向上:インタラクティブなチャットボットにOpenAIアシスタントAPIを実装する

イントロダクション OpenAIによるChatGPTとGPT 3モデルの導入により、世界はAIを統合したアプリケーションの使用にシフトしま...

データサイエンス

「Ego-Exo4Dを紹介:ビデオ学習とマルチモーダルパーセプションに関する研究をサポートするための基礎データセットとベンチマークスイート」

今日、AIはほとんどの想像できる分野で応用されています。それは確かに私たちの生活を変え、プロセスを合理化し、効率を向上...

機械学習

このAI論文では、リーマン幾何学を通じて拡散モデルの潜在空間の理解に深入りします

人工知能や機械学習の人気が高まる中で、自然言語処理や自然言語生成などの主要なサブフィールドも高速に進化しています。最...

機械学習

「AIがクリーンエネルギーの未来を支える方法」

人工知能は、最先端の技術と共に太陽と風の力を利用して世界を改善しています。 I AM AI ビデオシリーズの最新エピソードでは...

機械学習

Microsoft BingはNVIDIA Tritonを使用して広告配信を高速化

Jiusheng Chen氏のチームは加速しました。 彼らは、NVIDIA Triton Inference ServerをNVIDIA A100 Tensor Core GPUで実行する...

機械学習

「GiskardはHuggingFaceにGiskard Botをリリースします:HuggingFace Hubにプッシュした機械学習モデルの問題を自動的に検出するボットです」

2023年11月8日に発表された画期的な開発では、Giskard Botが機械学習(ML)モデルのゲームチェンジャーとして登場し、大規模...