In Japanese ゼファー7Bベータ:必要なのは良い教師だけです (Zefā 7B bēta Hitsuyō na no wa yoi kyōshi dake desu)

ゼファー7Bベータ:美容とファッションの鍵は良い教師だけです (Zefā 7B bēta Biyō to fasshon no kagi wa yoi kyōshi dake desu)

Mistral 7Bに対する知識蒸留

Pixabayからの画像

Mistral 7Bは最高の事前学習済み大規模言語モデル(LLMs)の一つです。Hugging Face社はZephyr 7Bアルファをリリースすることにより、DPOで微調整されたMistral 7Bは、10倍大きいチャットモデルを凌駕し、一部のタスクではGPT-4とも同等のパフォーマンスを発揮することを実証しています。

モデル名に「アルファ」とあるように、Hugging Faceは明らかにZephyr 7Bのより優れたバージョンをリリースする予定でした。そして、わずか2週間後にZephyr 7Bベータを実際にリリースしました。モデルとその評価についての詳細な技術レポートがarXivにあります。

この記事では、Zephyr 7Bベータがより大規模なLLMsよりも優れている理由を見ていきます。特に、Hugging FaceがGPT-4などの大規模なLLMsを活用して、Mistral 7Bに指示に答えさせ、回答を人間の選好と一致させる方法について見ていきます。

蒸留: より小さなLLMsがより大きなLLMsから学ぶとき

Hugging FaceはZephyrをトレーニングする際に知識蒸留(KD)に頼っていましたので、LLMsの文脈におけるKDとは何かについて簡単におさらいしましょう。

ほとんどのLLMsは、人間によって書かれたテキストを使用してトレーニングされます。人間のテキストには、トークンのシーケンスとボキャブラリーの非常に高い多様性があるため、それを正確にモデル化することは困難です。そのため、言語を正しくモデル化するためには多くのデータが必要です。

トレーニングコストと難しさを減らすショートカットがあります: 知識蒸留(KD)です。KDのやり方はいくつかありますが、ここではHugging Faceが使用した方法についてのみ説明します。

人間のテキストでトレーニングされた後でも、LLMsは言語の真の確率分布に近似するだけです。LLMsはデフォルトでは、人間よりもはるかに多様性の少ないトークンのシーケンスを生成します。注:そのため、生成テキストの多様性を向上させるために、例えば核サンプリングを介したランダムサンプリングなどが推論時にしばしば導入されます。

LLMsが生成するトークンのシーケンスは、人間のテキストよりも多様性が少ないため、これらの生成されたシーケンスをモデル化することははるかに簡単です。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more