「大規模言語モデルの評価について知っておくべきすべてのこと」

Everything you need to know about evaluating large-scale language models.

オープン言語モデル

パープレキシティから一般的な知能の測定へ

Image generated by the author using Stable Diffusion.

オープンソースの言語モデルがますます利用可能になるにつれ、選択肢の中で迷うことは容易です。

それらのパフォーマンスをどのように判断し、比較するのでしょうか?そして、どのモデルが他のモデルよりも優れていると自信を持って言えるのでしょうか?

本記事では、訓練と評価のメトリクス、一般的なベンチマークと特定のベンチマークを示すことで、モデルのパフォーマンスを明確にする方法について説明します。

もし見逃してしまった場合は、オープン言語モデルシリーズの最初の記事をご覧ください:

オープンソース大規模言語モデルへの優しい導入

なぜみんながラマ、アルパカ、タカなどの動物について話しているのか

towardsdatascience.com

パープレキシティ

言語モデルは、単語の語彙を対象に次に出現する単語を最も確率的に選択するための確率分布を定義します。与えられたテキストに対して、言語モデルは言語内の各単語に確率を割り当て、最も確率の高い単語を選択します。

パープレキシティは、言語モデルが与えられたシーケンス内の次の単語をどれだけ正確に予測できるかを測定します。訓練のメトリクスとして、モデルが訓練セットをどれだけ上手に学習したかを示します。

数学的な詳細には触れませんが、直感的には、パープレキシティを最小化することは、予測された確率を最大化することを意味します。

言い換えると、最良のモデルは新しいテキストを見たときに驚かないものであり、それは予測した単語がシーケンス内で次に来る単語を既に正確に予測していることを意味します。

パープレキシティは有用ですが、単語の意味や使用される文脈を考慮せず、データのトークン化方法に影響を受けます。異なる言語モデルは、異なる語彙とトークナイズの技術を使用してさまざまなパープレキシティスコアを生成するため、直接的な比較が意味をなさなくなります。

パープレキシティは有用ですが限定的なメトリクスです。主にモデルの訓練中の進捗を追跡するためや比較するために使用されます…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

自己対戦を通じて単純なゲームをマスターするエージェントのトレーニング

「完全情報ゲームで優れるために必要なすべてがゲームのルールにすべて見えるというのはすごいことですね残念ながら、私のよ...

データサイエンス

AIと機械学習のためのReactJS:強力な組み合わせ

このブログ記事では、ReactJSとAI/MLが組み合わされることで、パワフルでインタラクティブなウェブアプリケーションを構築す...

機械学習

一緒にAIを学びましょう−Towards AIコミュニティニュースレター#5

おはようございます、AI愛好家の皆さん!今週のポッドキャストのエピソードは必聴で、これまでの24エピソードの中でも一番優...

人工知能

「DARPAがハッカーを起用し、サイバー脅威から重要なソフトウェアを強化する」

競争は、トップのAIおよびサイバーセキュリティの才能に対して、ソフトウェアの脆弱性を自動的に見つけて修正し、重要なイン...

AIニュース

「OpenAIがユーザーエクスペリエンスを革新するために6つのエキサイティングなChatGPT機能を発表」

ChatGPTを開発した先進的な企業であるOpenAIは、6つのエキサイティングな新機能を追加し、ユーザーエクスペリエンスを向上さ...

機械学習

Explainable AI(説明可能なAI)とInterpretable AI(解釈可能なAI)の理解

最近の機械学習(ML)の技術革新の結果、MLモデルは人間の労働を不要にするために、さまざまな分野で使用されています。これ...