Zephyr-7B:HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bの上に構築

ゼフィール-7B:HuggingFaceが最適化されたLLM、ミストラル7Bの上に構築

イントロダクション

オープンな大規模言語モデル(LLM)の進化は、AI研究コミュニティに大きな影響を与えており、特にチャットボットや類似のアプリケーションの開発において重要な役割を果たしています。LLaMAなどのモデルがリリースされた後、効率的なファインチューニング、拡張されたプロンプトの処理、検索強化生成(RAG)、そして量子化に関する研究が急増しています。

例えば、LLaMAモデルは、ファインチューニングとプロンプトの文脈化の新時代を切り開き、MosaicMLのMPT、Together AIのRedPajama-INCITE、TIIのFalcon、MetaのLlama 2などの後続モデルの登場を促しました。これらのモデルはそれぞれ独自の機能を提供し、LLMの全体的な機能性と範囲を向上させています。

パリを拠点とするスタートアップ、Mistral AIは、元Google DeepMindおよびMetaの従業員によって設立され、その最初の製品であるMistral 7Bで名声を確立しました。

Mistral 7Bの利点は、Llama 2などの同様の能力を持つモデルと比較して、より少ない計算資源で同様または向上した機能を提供するという効率性にあります。

特に教育的なタスクにチューニングされたMistral 7B Instructは、Hugging Faceなどのプラットフォーム上で輝き、そのパラメーターのほぼ倍のモデルと競り合う能力を持っています。

これを踏まえ、Hugging FaceはZephyr 7B Alphaを紹介しました。これは、ファインチューニングされたMistral 7Bが大幅に大きいチャットモデルの能力を超えることができ、一部のタスクではGPT-4にさえ匹敵することを示しています。その後、Zephyr 7B Betaが続きました。

この記事では、Zephyr 7Bがより大きなモデルのパワーを活用して、人間の指示に応答し合致する能力を高める方法について探求します。このプロセスは、知識蒸留という技術によって可能にされます。この方法は、より大きなモデルが学習した複雑なパターンを小さなモデルに転送し、言語モデリングの能力を犠牲にすることなくトレーニングの要求を軽減するものです。Hugging Faceの知識蒸留アプローチの具体的な内容について説明します。

知識蒸留

Zephyr-7Bなどのモデル開発における重要なイノベーションの1つは、蒸留教師ありファインチューニング(dSFT)です。この方法は、より能力のある「教師」となるモデルの出力を使用して、より小さな「生徒」モデルをトレーニングし、その精度を向上させるものです。蒸留はさまざまなタスクでオープンモデルを改善する一方で、教師モデルとのパフォーマンスの差がまだ存在しています。

知識蒸留は、コンパクトな「生徒」と呼ばれるモデルがより複雑な「教師」モデルのパフォーマンスを再現するように教えられる機械学習の方法です。この技術により、生徒は先生が学んだ微妙なパターンを転送することで、以前には容量を超えていたタスクを実行することができるようになります。

知識蒸留、教師生徒モデル

知識蒸留 | 教師生徒モデル

生徒モデルは、教師モデルが生成する出力確率や特徴に基づいてトレーニングされます。最終的な予測だけでなく、これらの出力との一致に焦点を当てることで、生徒は教師の微妙な意思決定プロセスを学ぶことができます。これにより、グラウンドトゥルースデータだけでトレーニングするよりも性能が向上することがしばしばあります。

歴史的には、知識蒸留はHintonの初期の蒸留ネットワークや、最近ではDistilBERTなどのNLPモデルで利用されてきました。これらのモデルは、BERTモデルをより小さく、より高速なバージョンに蒸留し、元の言語理解能力の一部を保持するものです。TinyBERTなどの例もあり、モバイルやエッジデバイス向けにサイズと速度をさらに最適化しています。

Zephyr-7Bの場合、知識蒸留は、より大きなモデルと同等の能力を持つより小さな7Bパラメータモデルに備えるために使用されます。これにより、Zephyr-7Bは性能と効率性のバランスを実現し、計算リソースが限られている環境でも相互作用と理解の品質を損なうことなく適しています。

「Zephyr-7B」の開発において、研究者たちは小さなオープン型LLMを完全に蒸留によって整列させるという課題に取り組みました。彼らは「蒸留された直接的な優先度最適化(dDPO)」という手法を導入しました。この手法は、AIフィードバックを用いて複数の教師モデルのアンサンブルから得られた優先度データを使用します。この手法では、人間の注釈を必要とせず、モデルのトレーニングに必要な時間とリソースを大幅に削減することができます。

ZEPHYR-7Bの構築

dDPOを検証するために、研究者たちはZEPHYR-7Bを構築しました。これはMistral-7Bモデルの整列版です。このプロセスには3つのステップがあります:

  1. UltraChatデータセットを使用したdSFT:蒸留された教師付きファインチューニング(dSFT)は、より大型で能力の高い「教師」モデルの出力を活用して大規模な言語モデル(LLM)をトレーニングするための高度な方法です。これは、ユーザープロンプトに対応するようにトレーニングされた生のLLMから始まります。従来の教師付きファインチューニング(SFT)とは異なり、dSFTはモデル自体が指示と応答を生成する動的なアプローチを採用しています。この方法は、自己指示と呼ばれ、教師モデルを使用して指示を回答し、応答に基づいて指示を改善することを含みます。プロセスはさまざまなトピックを表すシードプロンプト(x₀₁、x₀₂、…、x₀_J)のセットから始まります。各プロンプトは反復的に洗練されます。与えられたプロンプトx₀に対して、教師モデルによって応答y₀が生成され、それからプロンプトx₁がx₀とy₀に基づいてサンプリングされます。最終的なデータセットC = {(x₁、y₁)、…、(x_J、y_J)}は、モデルのファインチューニングに使用されます。
  2. UltraFeedbackからのAIフィードバックデータの組み込み:このデータは、モデルの応答を改善するために重要です。このステップでは、モデルはさまざまなプロンプト(例:チョコレートブラウニーの作り方の説明など)に対する応答を生成し、それがGPT-4などのより高度なモデルによってランク付けされます。最も高得点の応答(yw)とランダムに選択された低得点の応答(yl)がフィードバックデータセットDを形成します。
  3. dDPOの適用:最後のフェーズである「蒸留された直接的な優先度最適化(dDPO)」は、dSFTモデルを洗練して、優先される応答をより高くランク付けする確率を最大化することを目指します。これは、優先度モデルを使用した報酬関数rθ(x、y)に基づいています。この関数は最適なLLMポリシーπ*と元のポリシーπdSFTに基づいています。最適化の目的は、πθ = max π E (x、yw、yl) ∼ D log σ (β log π(yw|x)/πdSFT(yw|x) − β log π(yl|x)/πdSFT(yl|x)) と形成されます。この目的関数は、モデルのdSFTバージョンから始めて、各AIFトリプルを繰り返し処理することにより、トレーニングプロセスを簡略化します。

Zephyr-7Bで使用される手法は、InstructGPTで使用されるプロセスと似ています。

Zephyr-7Bで使用される手法は、InstructGPTで使用されるプロセスと似ています。

驚くべきことに、Zephyr-7Bは人間のフィードバックと整合するために整列されたより大規模な70Bパラメータモデルと比較しても性能が向上しています。学術的なベンチマークや対話能力の両面で優れたパフォーマンスを発揮し、モデル開発における優先度学習の効果を示しています。さらなる探索のために、モデル、コード、および手順はハギングフェイスのGitHubリポジトリで利用できます。

意図の整合性の課題への取り組み

LLMにおける人間の意図との整合性は、顕著な懸念事項でした。以前のモデルでは、ユーザーの好みに一致しないまたは関連性のない回答を生成することが多く、正確性に欠ける結果となっていました。しかし、MT-BenchやAlpacaEvalなどの最近のベンチマークは、この側面を定量化し改善するためのツールを提供しており、人間のフィードバックでトレーニングされたプロプライエタリなモデルが蒸留だけでトレーニングされたモデルよりも優れたパフォーマンスを示しています。

評価方法

Zephyr 7Bの評価は、シングルターンとマルチターンのコンテキストでモデルの対話能力を評価するさまざまなベンチマークで厳密にテストされました:

  • MT-Bench:このマルチターンのベンチマークは、8つのドメインにまたがる160の質問に対応するモデルの評価を要求します。各応答はGPT-4によって評価され、モデルの最終的なスコアは2ラウンドの質問の平均を反映しています。
  • AlpacaEval:このシングルターンのベンチマークでは、さまざまな主題に関する805の質問が提示されます。ここではモデルの助けに重点が置かれ、GPT-4は応答を評価して比較的勝率を決定します。

さらに、Zephyr 7BはOpen LLM Leaderboardでテストされました。これは会話のスキルを直接的に評価するものではありませんが、モデルの推論力と真実性についての洞察を提供します。

Zephyr 7Bは、異なるサイズやアラインメント方法を持つさまざまなオープンおよび独自のモデルと比較されました。MT-BenchとAlpacaEvalで7Bモデルの新たなベンチマークを確立し、より大きなモデルに対して競争力のあるパフォーマンスを示し、直接的な優先度最適化(dDPO)のトレーニングの効果を検証しました。

SFTとDPOのトレーニングフェーズは、最適なパフォーマンスを得るために、複数のエポックにわたり細かく設定されました。最終的なZephyrモデルは、過学習に対してだけでなく、実践的な課題と学術的なベンチマークに対処する能力も向上させました。

データセットと結果

利用されたデータセット

Zephyr-7Bの開発には、対話生成の異なる側面に取り組むために、2つの主要なデータセットが使用されました。

UltraChatデータセット

  • ソース: GPT-3.5-TURBOによって生成されたダイアログから作成されました。
  • 内容: 30のトピックと20のテキスト素材の種類を含む147万件のマルチターン対話を含んでいます。
  • 改善: データセットは文法上の問題を修正するための真の処理ヒューリスティックによって改善され、応答の助けになるためのフィルタが適用され、無用な先行フレーズが削除されました。

UltraFeedbackデータセット

  • ソース: GPT-4によって評価されたプロンプトで構成されており、指示の従順性、正直さ、助けになるという評価を受けました。
  • 内容: GPT-4によって評価された64,000のプロンプトで、それぞれに4つの応答があります。
  • バイナリの選好: 平均スコアが最も高い応答を「選択」とし、残りの中からランダムに1つを「拒否」として生成し、多様性を高め、直接的な優先度最適化(DPO)のプロセスを挑戦します。

これらのデータセットは、Zephyr-7Bをトレーニングして人間らしい対話を理解し、生成するために重要です。これらのデータセットはHugging Face Hubで利用可能で、こちらでアクセスできます。

パフォーマンスと結果

以下のチャートは、Zephyr 7Bのさまざまなタスクカテゴリでのパフォーマンスを、GPT-3.5-turbo、Claude 1、GPT-4、Llama-2-70b-chatなどの他のモデルと比較して示しています。カテゴリには、ライティング、人文科学、ロールプレイ、推論、STEM、抽出、コーディング、数学などが含まれる場合があります。

チャートから、Zephyrのラインが他のモデルと比較してライティングの軸でより外に広がっている場合、Zephyrの書かれたコンテンツを生成する能力が特に強いことを示しています。逆に、数学の軸で中心に近い場合、数学の問題解決において相対的な弱点を示している可能性があります。

レーダーチャートは、Zephyr 7Bの強みと弱点を特定し、GPT-4などのより大きなモデルやLlama-2-70b-chatなどの専門モデルとの比較を視覚的に表しています。

 

モデルパフォーマンスレーダーチャート

モデルパフォーマンスレーダーチャート

MT-BenchとAlpacaEvalの2つのベンチマークでさまざまな言語モデルを比較しています。モデルは、サイズ、アラインメント方法(蒸留された教師あり微調整のためのdSFTや蒸留された直接的な優先度最適化のためのdDPOなど)、およびパフォーマンススコアに基づいて評価されています。Zephyrは、両方のベンチマークで高いスコアを叩き出し、整合した応答を生成する能力を示しています。

MT-BenchとAlpacaEval

MT-BenchとAlpacaEval

結論

Zephyr-7Bの開発は、大規模言語モデル(LLM)の会話能力をより小さなモデルに移植するためのサンプリングベースの手法に頼らずに、アラインメントと蒸留が実現可能であることを示しています。AIのフィードバックと直接的な優先度最適化(DPO)を利用することで、Zephyr-7BはMistral-7Bの強力な基盤を活用し、7Bパラメーターのチャットモデルの新たなベンチマークを設定し、より小さなオープンソースモデルがユーザーの意図を効果的に理解し、応答する能力を紹介しています。

ただし、この研究には限定的な面もあります。ベンチマークの評価にGPT-4を依存しているため、それによって抽出されたモデルに偏りが生じ、正確な応答よりも好意的に評価される可能性があります。さらに、LLAMA2-70Bのような大規模なモデルへのこの手法の拡張性やパフォーマンス向上への影響は、今後の研究の課題です。これらの制限は、AIコミュニティにおいて継続的なイノベーションと公正な評価方法の開発の必要性を強調しています。

研究を超えて考えると、小規模なモデルが大規模なモデルと同等の性能を発揮する可能性は、AIの民主化を促進し、さまざまなアプリケーションでのよりアクセスしやすく効率的な使用を可能にするということが明らかです。Zephyr-7Bの成功は、共同研究と開発を促進することでAIの進歩を加速することができるオープンソースモデルへのさらなる探索を奨励しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ジャスティン・マクギル、Content at Scaleの創設者兼CEO - インタビューシリーズ」

ジャスティンは2008年以来、起業家、イノベーター、マーケターとして活動しています彼は15年以上にわたりSEOマーケティングを...

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

スティーブン・デアンジェリスは、エンタラソリューションズの創設者兼CEOであり、自律的な意思決定科学(ADS®)技術を用いて...

人工知能

「マーシャンの共同創設者であるイータン・ギンスバーグについてのインタビューシリーズ」

エタン・ギンズバーグは、マーシャンの共同創業者であり、すべてのプロンプトを最適なLLMに動的にルーティングするプラットフ...

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

機械学習

「機械学習 vs AI vs ディープラーニング vs ニューラルネットワーク:違いは何ですか?」

テクノロジーの急速な進化は、ビジネスが効率化のために洗練されたアルゴリズムにますます頼ることで、私たちの日常生活を形...

人工知能

「LeanTaaSの創設者兼CEO、モハン・ギリダラダスによるインタビューシリーズ」

モーハン・ギリダラダスは、AIを活用したSaaSベースのキャパシティ管理、スタッフ配置、患者フローのソフトウェアを提供する...