大規模言語モデルは、テキスト評価のタスクで人間を置き換えることができるのか? このAI論文では、テキストの品質を評価するためにLLMを使用し、人間の評価の代替手段として提案しています
Can large-scale language models replace humans in text evaluation tasks? This AI paper proposes using LLM to evaluate the quality of text as an alternative to human evaluation.
I had trouble accessing your link so I’m going to try to continue without it.
以下のHTMLを日本語に翻訳します(HTMLコードは結果に含めます):
自然言語処理モデルとテキスト品質を示すアルゴリズムのパフォーマンスを評価するために、人間の評価が使用されてきました。しかし、人間の評価は一貫しているわけではなく、再現性がない場合もあります。同じ人間の評価者を募集し、評価基準の主観性や解釈の違いを含むさまざまな要素(評価基準の解釈など)により、同じ評価を返すことは困難です。
- 「簡単な英語プロンプトでLLMをトレーニング!gpt-llm-trainerと出会って、タスク固有のLLMをトレーニングする最も簡単な方法」
- 「Flowsに会いましょう:複雑なAI-Humanの相互作用をモデル化するための革命的なAIフレームワーク」
- ゲーム業界の皆様へ!もう奇妙な鏡は不要です、Mirror-NeRFが登場しました!
台湾国立大学の研究者は、この再現性の問題に対処するために、「大規模言語モデル」(人間の言語をモデル化するために訓練されたモデル)の使用を研究しました。彼らは、人間の評価と同じ指示、評価対象のサンプル、および質問を大規模言語モデルに提示し、それらの質問に対する応答を大規模言語モデルに生成させました。彼らは、オープンエンドのストーリー生成と敵対的攻撃という2つの自然言語処理タスクで、人間と大規模言語モデルの評価を使用してテキストを評価しました。
「オープンエンドのストーリー生成」では、人間と生成モデル(GPT-2)によって生成されたストーリーの品質を、大規模言語モデルと人間が評価することで検証しました。
そのために、評価指示、生成されたストーリーの断片、および評価質問に基づいて、それぞれ文法の正確さ、一貫性、好み、関連性の4つの属性に基づいてリケルト尺度(5段階)で評価されるアンケートを作成しました。
人間の評価では、ユーザーは準備されたアンケートに回答します。大規模言語モデルによる評価では、アンケートをプロンプトとして入力し、大規模言語モデルから出力を取得します。研究者は、T0、text-curie-001、text-davinci-003、ChatGPTという4つの大規模言語モデルを使用しました。人間の評価には、有名な英語教師を使用しました。これらの大規模言語モデルと英語教師は、人間が書いたストーリーとGPT-2が生成したストーリーをそれぞれ200件評価しました。英語教師による評価では、人間が書いたストーリーに対して4つの属性(文法的正確さ、結束性、好み、関連性)のすべてにおいて好意的な評価が示されました。これは、英語教師が生成モデルによって書かれたストーリーと人間によって書かれたストーリーの品質の違いを区別できることを示しています。しかし、T0とtext-curie-001は人間が書いたストーリーに明確な優位性を示しません。これは、大規模言語モデルがオープンエンドのストーリー生成を評価する際には、人間の専門家よりも能力が低いことを示しています。一方、text-davinci-003は人間が書いたストーリーと英語教師に明確な優位性を示しました。さらに、ChatGPTも人間が書いたストーリーに高い評価を示しました。
彼らは、AIの文を分類する能力をテストする敵対的攻撃のタスクを調査しました。彼らは、文をいくつかの敵対的攻撃(文をわずかに変更するための同義語の使用)で分類する能力をテストしました。そして、攻撃がAIの文の分類能力にどのように影響を与えるかを評価しました。これは、大規模言語モデル(ChatGPT)と人間を使用して行いました。
敵対的攻撃に対して、英語教師(人間の評価)は、敵対的攻撃によって生成された文を流暢さと意味の保存の点で元の文よりも低く評価しました。さらに、ChatGPTは敵対的攻撃の文に対して高い評価を与えました。また、ChatGPTは敵対的攻撃の文を元の文よりも低く評価しました。全体的に、大規模言語モデルは敵対的攻撃の文と元の文の品質を人間と同じように評価しました。
研究者は、大規模言語モデルによる評価の以下の4つの利点を指摘しています:再現性、独立性、コスト効率と速度、および不適切なコンテンツへの露出の低減。ただし、大規模言語モデルは事実の誤解釈にも影響を受けやすく、学習方法にはバイアスが導入される可能性があります。さらに、これらのモデルには感情がないため、感情を含むタスクの評価において効果が制限される可能性があります。人間の評価と大規模言語モデルによる評価は、それぞれ独自の強みと弱点を持っています。最適な効果は、人間とこれらの大規模モデルの組み合わせによって達成される可能性があります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles