UCバークレーとSJTU中国の研究者が、言語モデルのベンチマークと汚染を再考するための「再表現サンプル」の概念を紹介しました

「UCバークレーとSJTU中国の研究者が提案する言語モデルのベンチマークと汚染の再評価 - 「再表現サンプル」の概念紹介」

大型言語モデルはますます複雑になり、評価が困難になっています。コミュニティは比較的短期間で多くのベンチマークを作成してきましたが、ベンチマークのスコアは常に実際のパフォーマンスに対応しているわけではありません。一部の証拠によれば、多くの人気のあるベンチマークは、ファインチューニングやプレトレーニングに使用されるデータセットに汚染がある可能性があります。

重要な問題であると広く合意されているにもかかわらず、汚染の源を特定することは困難でした。Nグラムの重複と埋め込み類似検索の両方が広く使用されています。GPT-4、PaLM、Llamaなどの最先端のイノベーションでは、Nグラムの重複の汚染検出には文字列のマッチングが広範に使用されていますが、その精度はやや低いです。埋め込み類似検索は、以前にトレーニングされたモデル(BERTなど)の埋め込みを見て、関連するおそらく汚染されているケースを発見します。ただし、類似性レベルを決定する際に再現率と精度のバランスを見つけることは困難かもしれません。さらに、LLM(たとえばGPT-4)によって生成された合成データを使用するモデルトレーニングの発展的なトレンドがあり、文字列のマッチングを使用して識別することがさらに困難になる可能性があります。

UCバークレーと上海交通大学による新しい研究では、既存の汚染テストでは特定するのが難しいが、元のサンプルと同じ意味を持つ「言い換えられたサンプル」という概念を紹介しています。LLMは、テストサンプルを別の言語に翻訳して言い換えることによって言い換えられたサンプルを生成します。研究者は、そのような言い換えられた例がトレーニングに使用される場合、結果として得られるモデルは過適合に非常に弱く、テストベンチマークで非常に高い性能を達成することができることを示しています。緻密にキャリブレーションされた13B Llamaモデルは、Nグラムの重複としての汚染に気付かれることなく、MMLU、GSM-8k、HumanEvalなどの広く使用されているベンチマークでもGPT-4と同じ性能を達成できます。したがって、言い換えられたサンプルを識別する能力が重要です。

研究者は、従来の汚染除去技術の欠点を説明し、新しいLLMベースのアプローチを提案しています。特定の上位kのサンプルがテストインスタンスと類似しすぎていないかを判断するために、まず埋め込み類似検索を適用してテストサンプルに最も類似しているモデルを見つけます。結果は、彼らが提案するLLMデコンタミネータが従来の技術よりも優れていることを示しています。彼らは、ファインチューニングや予備的なトレーニングに使用されるさまざまな人気のあるデータセットでデコンタミネータをテストします。また、GPT-3.5の合成データセットであるCodeAlpacaには、HumanEvalからの言い換えられたサンプルがかなり含まれていることも分かりました(正確には12.8%)。これは、LLMによって作成された偽のデータを使用したトレーニング中に汚染の可能性があることを示唆しています。

研究者は、公共のベンチマークを使用してLLMを評価するためのより詳細な汚染除去手順を確立するようコミュニティに助言しています。彼らは、CodeforcesやKaggleのような新しい一度限りのテストを作成し、LLMの公正な評価におけるこれらの基本的な問題を克服することを望んでいます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

がん診断の革命:ディープラーニングが正確に識別し再分類することで、肝臓がんの組み合わせを強化された治療判断につながります

“` 肝臓癌は、肝細胞癌(HCC)と肝内胆管癌(ICCA)を含む原発性肝癌は、それぞれ異なる特徴を持つため、重要な課題を...

機械学習

ソフトウェア開発のパラダイムシフト:GPTConsoleの人工知能AIエージェントが新たな地平を開く

変化が唯一の定数である業界で、GPTConsoleは革新的な能力を持つ3つのAIエージェントを導入しました。先頭に立つのはPixieで...

AI研究

MONAI 生成モデル:医療画像の進歩に向けたオープンソースプラットフォーム

最近の生成型人工知能のブレークスルーにより、特に医療画像処理の分野で重要な進展が見られています。しかし、これらの生成...

AIニュース

OpenAIがグローバルイルミネーションを引き継ぎ、初の企業買収を祝います

テック界に波紋を広げる動きとして、人工知能の先駆的存在であるOpenAIが、初の買収に乗り出しました。OpenAIがデジタルプロ...

機械学習

テキスト生成の評価におけるベクトル化されたBERTScoreのビジュアルガイド

『AIベースのテキスト生成は明らかに主流に入ってきています自動化されたライティングアシスタントから法的文書の生成、マー...

AI研究

「LangChainとGPT-4を使用した多言語対応のFEMAディザスターボットの研究」

この記事では、洪水や竜巻などの災害に備え、生き残るために、多言語対応のアメリカ連邦緊急事態管理庁(FEMA)の災害チャッ...