「GPT-4の隠れた回帰の時間経過の定量化」
GPT-4の時間経過の定量化
生成AIの使用とテストに関する研究の第3部
GPT-4はGPT-3よりも大きく優れています。GPT-4は洗練されたスピーチを起草し、標準化された試験に合格し、さらに画像を解釈することができます。2023年3月14日にリリースされて以来、OpenAIは毎日数百万件のクエリに対応するためにGPT-4を改善するために継続的に更新しています。しかし、OpenAIのAPIである「gpt-4」と呼ばれるGPT-4の最新バージョンは、3月にリリースされた「gpt-4–0314」と比べて実際に優れているのでしょうか?
Kolenaの機械学習エンジニアの視点から、この記事は異なるシナリオでのGPTモデルのパフォーマンス比較についての連続した議論の一続きです。
「gpt-4」の全体的な振る舞いは、「gpt-4–0314」よりも優れているかもしれませんが、その「優れている」という言葉は相対的なものです。ユーザーはオンライン上で、さまざまな文脈でGPT-4モデルのパフォーマンスの低下を経験したと共有しています。GPT-4が以前よりも17077が素数であることを理解できなくなったという一つの事例が広まりました。
もちろん、主観的および客観的なパフォーマンスが継続的に低下している最新モデルを使用することは問題です。他にも秘密の回帰が存在する可能性はあるのでしょうか?
CoQA(Conversational Question Answering)データセットを使用して、GPT-4の隠れた回帰をテストすることができます。CoQAデータセットには、それぞれに対応する一連の質問がある複数の記事が含まれています。質問nの理解が質問n+1の回答に必要な場合があります。スポーツの歴史に関する記事を例に挙げると、次のような質問があります:
1. 最も栄誉あるオリンピック選手は誰ですか?2. 彼らはどの国出身ですか?3. 彼らは何個の金メダルを持っていますか?
これらの質問には個別に答えることは不可能です。なぜなら、最初の質問に答えなければ、対象の人物を知ることができないからです。
結果
大まかなレベルでは、GPT-4はGPT-3よりもはるかに優れていますが、完璧ではありません:
+------------+-------------+-------------+-----------+| モデル | avg_BERT_F1 | avg_ROUGE_1 | n_correct |+------------+-------------+-------------+-----------+| gpt-4 | 0.92729 | 0.77735 | 4708 || gpt-4–0314 | 0.92497 | 0.77284 | 4718 || gpt-3 | 0.90845 | 0.71676 | 4348 |+------------+-------------+-------------+-----------+
注:「gpt-3」はGPT-3.5シリーズの最新のTurboモデルであり、n_correctは、そのBERT_F1とROUGE_1の平均が0.75よりも大きい質問の数です。
上記から、なぜ「gpt-4–0314」がメトリック(BERT_F1とROUGE_1)で「gpt-4」よりも悪いのに、より多くの正しく回答された質問があるのでしょうか?おそらく両モデルが同じ質問に間違って回答しているが、「gpt-4」と「gpt-4–0314」の失敗セットが均質ではないことは保証されていません。新しいモデルがよりパフォーマンスが高いはずであるという前提の下で、この違いや回帰の理由はメトリックを観察しても説明できません。データをより小さなグループに論理的に分解することで、失敗の潜在的な原因をより詳細に理解することができます。
CoQAデータセットを各記事のデータソースに基づいて層別化すると、最新のGPT-4モデルではウィキペディアの記事に関連する質問応答データがより良い結果を示しますが、他のデータソース全体およびすべてのデータソースで悪化します。
上の画像は、「gpt-4–0314」をベンチマークとし、「gpt-4」との比較を示しており、異なるデータソース間で生成された正解数の改善または低下の違いを強調しています。 正解数の観点では、GPT-4の唯一の改善はWikipediaのデータポイントからであり、他の場所では性能が低下しています。
分析
これにより、「gpt-4」が「gpt-4–0314」のWikipedia記事のチューニングバージョンであることが明らかになりますか? 残念ながら、わかりません。
では、GPT-4は悪化したと言えるでしょうか? この尺度では必ずしもそうとは言えません。学術界ではWikipediaを信頼性の低い情報源と考えていますが、多くの人々は依然としてクイックでアクセス可能な情報としてそれを定期的に利用しています。OpenAIがGPTに任意のドメインの質問に答えさせたい場合、ユーザーが毎日何百万ものランダムなクエリを行う際には、Wikipediaの完全な理解がニュース記事の理解よりも価値があります。
ニュース記事は通常共通のテーマを持っており、一般の人はWikipediaに存在しないトピックに関するGPTへの質問をしないかもしれません。
異なるデータソースによるデータセットを層別化する前は、「gpt-4–0314」が「gpt-4」よりも大きな数の正しい結果を得た具体的な説明はありませんでした。1つの層別化だけで、モデルの違いの1つの妥当な説明が得られます。
結論
時間の経過とともに、GPT-4は複数のデータソースにおける対話型質問応答で低下しましたが、Wikipedia記事に関するクエリでは性能が向上しました。
隠れた低下を特定することは、すべてのエンジニアにとって展開前のモデル検証の優先事項であるべきです。LLMの隠れた低下を見つけることは簡単ではありませんが、適切なアプローチを持つことで容易になります。最も優れたモデルは、全体的なパフォーマンスが最も優れているモデルではなく、最も重要なシナリオで最良の結果を出すモデルです。
今後のブログ記事では、CoQAのさらなる層別化を詳しく調査し、GPT-4の時間の経過による変化をより理解する予定です。お楽しみに!
**CoQAデータセットには、異なるライセンスを持つ7つの異なるデータセットのデータが含まれています。この記事ではデータセット内のデータは公開せず、商業的に利用可能なデータソース(Gutenberg、CNN、MCTest、Wikipedia)からのテストおよび分析にのみ使用しました。これらのデータソースはCC BY-SA 4.0、MSR-LA、またはApacheライセンスを持っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles