In Japanese ゼファー7Bベータ:必要なのは良い教師だけです (Zefā 7B bēta Hitsuyō na no wa yoi kyōshi dake desu)
ゼファー7Bベータ:美容とファッションの鍵は良い教師だけです (Zefā 7B bēta Biyō to fasshon no kagi wa yoi kyōshi dake desu)
Mistral 7Bに対する知識蒸留
Mistral 7Bは最高の事前学習済み大規模言語モデル(LLMs)の一つです。Hugging Face社はZephyr 7Bアルファをリリースすることにより、DPOで微調整されたMistral 7Bは、10倍大きいチャットモデルを凌駕し、一部のタスクではGPT-4とも同等のパフォーマンスを発揮することを実証しています。
モデル名に「アルファ」とあるように、Hugging Faceは明らかにZephyr 7Bのより優れたバージョンをリリースする予定でした。そして、わずか2週間後にZephyr 7Bベータを実際にリリースしました。モデルとその評価についての詳細な技術レポートがarXivにあります。
この記事では、Zephyr 7Bベータがより大規模なLLMsよりも優れている理由を見ていきます。特に、Hugging FaceがGPT-4などの大規模なLLMsを活用して、Mistral 7Bに指示に答えさせ、回答を人間の選好と一致させる方法について見ていきます。
蒸留: より小さなLLMsがより大きなLLMsから学ぶとき
Hugging FaceはZephyrをトレーニングする際に知識蒸留(KD)に頼っていましたので、LLMsの文脈におけるKDとは何かについて簡単におさらいしましょう。
- 数学的な問題解決におけるLLMの潜在能力を開発するための研究
- 「日本で2番目のAI技術を搭載した候補者が公職を求める」
- このAI論文は、ChatGPTを基にしたテキストデータの拡張アプローチであるAugGPTを提案しています
ほとんどのLLMsは、人間によって書かれたテキストを使用してトレーニングされます。人間のテキストには、トークンのシーケンスとボキャブラリーの非常に高い多様性があるため、それを正確にモデル化することは困難です。そのため、言語を正しくモデル化するためには多くのデータが必要です。
トレーニングコストと難しさを減らすショートカットがあります: 知識蒸留(KD)です。KDのやり方はいくつかありますが、ここではHugging Faceが使用した方法についてのみ説明します。
人間のテキストでトレーニングされた後でも、LLMsは言語の真の確率分布に近似するだけです。LLMsはデフォルトでは、人間よりもはるかに多様性の少ないトークンのシーケンスを生成します。注:そのため、生成テキストの多様性を向上させるために、例えば核サンプリングを介したランダムサンプリングなどが推論時にしばしば導入されます。
LLMsが生成するトークンのシーケンスは、人間のテキストよりも多様性が少ないため、これらの生成されたシーケンスをモデル化することははるかに簡単です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「PyMC-Marketingによる顧客のライフタイムバリュー予測」
- 「読んだものに関してのみ話すこと:LLM(Language Model)は事前学習データを超えて一般化できるのか?」
- トリニティライフサイエンスの社長兼CEOであるレスリー・オーン氏は、ライフサイエンスイノベーション、データ駆動型戦略、製薬業界におけるAI、エグゼクティブリーダーシップ、戦略的取引、ブランド計画、エグゼクティブのワークライフバランスに関して広く知識を持つ専門家です
- 「LLMの評価にLLMを使用する」
- テック業界でデータサイエンティストの仕事を手に入れた私の履歴書を解剖する
- 究極のハイブチュートリアル:ビッグデータ管理とクエリの必須ガイド
- 「マルチプレーナーUNet:すべての3Dセグメンテーションタスクに対応した1つのUNet(データが少ない場合でも)- ローコードアプローチ」