大規模言語モデルは、テキスト評価のタスクで人間を置き換えることができるのか? このAI論文では、テキストの品質を評価するためにLLMを使用し、人間の評価の代替手段として提案しています

Can large-scale language models replace humans in text evaluation tasks? This AI paper proposes using LLM to evaluate the quality of text as an alternative to human evaluation.

I had trouble accessing your link so I’m going to try to continue without it.

以下のHTMLを日本語に翻訳します(HTMLコードは結果に含めます):

自然言語処理モデルとテキスト品質を示すアルゴリズムのパフォーマンスを評価するために、人間の評価が使用されてきました。しかし、人間の評価は一貫しているわけではなく、再現性がない場合もあります。同じ人間の評価者を募集し、評価基準の主観性や解釈の違いを含むさまざまな要素(評価基準の解釈など)により、同じ評価を返すことは困難です。

台湾国立大学の研究者は、この再現性の問題に対処するために、「大規模言語モデル」(人間の言語をモデル化するために訓練されたモデル)の使用を研究しました。彼らは、人間の評価と同じ指示、評価対象のサンプル、および質問を大規模言語モデルに提示し、それらの質問に対する応答を大規模言語モデルに生成させました。彼らは、オープンエンドのストーリー生成と敵対的攻撃という2つの自然言語処理タスクで、人間と大規模言語モデルの評価を使用してテキストを評価しました。

「オープンエンドのストーリー生成」では、人間と生成モデル(GPT-2)によって生成されたストーリーの品質を、大規模言語モデルと人間が評価することで検証しました。

そのために、評価指示、生成されたストーリーの断片、および評価質問に基づいて、それぞれ文法の正確さ、一貫性、好み、関連性の4つの属性に基づいてリケルト尺度(5段階)で評価されるアンケートを作成しました。

人間の評価では、ユーザーは準備されたアンケートに回答します。大規模言語モデルによる評価では、アンケートをプロンプトとして入力し、大規模言語モデルから出力を取得します。研究者は、T0、text-curie-001、text-davinci-003、ChatGPTという4つの大規模言語モデルを使用しました。人間の評価には、有名な英語教師を使用しました。これらの大規模言語モデルと英語教師は、人間が書いたストーリーとGPT-2が生成したストーリーをそれぞれ200件評価しました。英語教師による評価では、人間が書いたストーリーに対して4つの属性(文法的正確さ、結束性、好み、関連性)のすべてにおいて好意的な評価が示されました。これは、英語教師が生成モデルによって書かれたストーリーと人間によって書かれたストーリーの品質の違いを区別できることを示しています。しかし、T0とtext-curie-001は人間が書いたストーリーに明確な優位性を示しません。これは、大規模言語モデルがオープンエンドのストーリー生成を評価する際には、人間の専門家よりも能力が低いことを示しています。一方、text-davinci-003は人間が書いたストーリーと英語教師に明確な優位性を示しました。さらに、ChatGPTも人間が書いたストーリーに高い評価を示しました。

彼らは、AIの文を分類する能力をテストする敵対的攻撃のタスクを調査しました。彼らは、文をいくつかの敵対的攻撃(文をわずかに変更するための同義語の使用)で分類する能力をテストしました。そして、攻撃がAIの文の分類能力にどのように影響を与えるかを評価しました。これは、大規模言語モデル(ChatGPT)と人間を使用して行いました。

敵対的攻撃に対して、英語教師(人間の評価)は、敵対的攻撃によって生成された文を流暢さと意味の保存の点で元の文よりも低く評価しました。さらに、ChatGPTは敵対的攻撃の文に対して高い評価を与えました。また、ChatGPTは敵対的攻撃の文を元の文よりも低く評価しました。全体的に、大規模言語モデルは敵対的攻撃の文と元の文の品質を人間と同じように評価しました。

研究者は、大規模言語モデルによる評価の以下の4つの利点を指摘しています:再現性、独立性、コスト効率と速度、および不適切なコンテンツへの露出の低減。ただし、大規模言語モデルは事実の誤解釈にも影響を受けやすく、学習方法にはバイアスが導入される可能性があります。さらに、これらのモデルには感情がないため、感情を含むタスクの評価において効果が制限される可能性があります。人間の評価と大規模言語モデルによる評価は、それぞれ独自の強みと弱点を持っています。最適な効果は、人間とこれらの大規模モデルの組み合わせによって達成される可能性があります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「GATE DA 2024のサンプル問題集」

導入 GATE 2024の志望者の皆さん、素晴らしいニュースです!インド科学研究所(IISc)が、今後のGATE試験のためのサンプル問...

機械学習

「React開発者にとってのAI言語モデルの力包括的なガイド」

このブログでは、AI言語モデルとReactのシナジーについて探求し、このコラボレーションが開発者の能力を向上させる方法を探り...

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

データサイエンス

「伝統的な機械学習はまだ重要ですか?」

伝統的な機械学習が生成モダルAIの時代でも不可欠である理由を探求し、その強み、弱点、およびさまざまな産業における重要な...

AI研究

中国からのニューエーアイ研究は、GLM-130Bを紹介しますこれは、13兆のパラメータを持つバイリンガル(英語と中国語)のプリトレーニング言語モデルです

最近、大規模言語モデル(LLM)のゼロショットおよびフューショットの能力は大幅に向上し、100Bパラメータ以上を持つモデルは...

機械学習

「これらの完全自動の深層学習モデルは、スマートフォンの統合を使用して、猫の苦痛指標スケール(FGS)を使用した痛み予測に使用できます」

人工知能(AI)の能力は、医療、金融、教育など、あらゆる業界に広がっています。医学や獣医学の分野では、適切な治療を施す...