Zephyr LLM アライメントの直接蒸留

Zephyr LLM直接蒸留法による美容法' (Zephyr LLM Chokusetsu Jōryū-hō ni yoru Biyō-hō)

近年、小さなオープン大規模言語モデルの能力と性能が大幅に向上しました。初期のGPT-2モデルから、よりコンパクトで正確かつ効果的なLLMフレームワークへの進歩を目撃してきました。これらのフレームワークは、「チンチラスケーリング法」によって推奨されるトークンの「計算最適」量よりもはるかに多くのトークンを使用します。さらに、開発者は、これらの小型LLMフレームワークを、効果的な先生モデルの出力を学生モデルの教師データとして使用する「dSFTまたは蒸留監督微調整」という独自のモデルに基づくアプローチを使用して、さらにトレーニングできることを実証しています。

この記事では、ユーザーの意図により密接に合わせることができる、現代の最新の「Zephyr-7Bフレームワーク」について話します。このフレームワークの主な目的は、人間の注釈を必要としないで、開発者が以前以上にユーザーの意図に一致した小型の大規模言語モデルを生成できるようにすることです。Zephyr-7Bフレームワークは、dSFTのような大規模LLMフレームワークの現在のアプローチだけでなく、ユーザーの意図とより一致するチャットモデルを学習するための他のアプローチの可能性も探求します。Zephyrフレームワークのアーキテクチャ、動作、および結果について詳しく調べていきましょう。

Zephyr-7B：言語モデルの直接蒸留についての紹介

前述したように、言語モデルは最近急速に進化してきました。以前のGPT-2フレームワークから現在のGPT-4およびMiniGPT-5 LLMフレームワークに至るまで、トークンの網羅性が向上し、精度も向上し、より効率的になりました。これらの高度なLLMフレームワークの主な特徴は、以前に「チンチラスケーリング法」によって計算最適とされていたトークンの数よりもはるかに多くのトークンを含んでいることです。さらに、LLMフレームワークに取り組む開発者や研究者は、これらの小型LLMフレームワークを、効果的な先生モデルの出力を学生モデルの監督データとして使用する「独自のモデルに基づくdSFTまたは蒸留監督微調整」アプローチを使用してさらにトレーニングできることを学んでいます。蒸留戦略は、様々なタスクでオープンモデルの潜在能力と能力を最大化するための非常に効果的で役立つツールであり、先生モデルが達成したパフォーマンスをまだ再現することはできません。さらに、ユーザーはこれらのモデルがしばしば「意図の不一致」を示すと報告しており、つまり、モデルがエンドユーザーの要件に合致しない方法で動作し、正しい出力や応答を提供しない不正確な出力が発生するということです。

最近、意図の一致は開発者にとって常に大きな課題となっており、AlpacaEvalやMT-Benchなどのベンチマークの開発に焦点を当てた最近の取り組みが行われています。Zephyrフレームワークの開発の動機は、蒸留を使用して小さなオープンLLMフレームワークを完全に一致させる問題に帰せられます。その主要なステップは、教師モデルのアンサンブルから優先データを取得するために「AIFまたは人工知能フィードバック」を利用し、蒸留優先最適化を直接主要な学習目標として適用する「dDPOまたはノイズ除去拡散ポリシーオプティマイゼーション」というアプローチです。dDPOアプローチの主なハイライトは、以前の「PPOまたはプロキシマル優先オプティマイゼーション」とは異なり、人間のサンプリングや注釈は必要なく、言語モデルのトレーニングにかかる時間も短縮されることです。さらに、最終サンプルの報酬を最大化するために、ノイズ除去手順のシーケンスに最初から最後まで、つまり全体を注意深く考慮することも可能です。

開発者は、このアプローチを検証するためにZephyr-7Bフレームワークを開発しました。ある意味では、これは最先端の「Mistral-7Bフレームワーク」の一致バージョンです。このフレームワークは、まずUltraChatデータセットに基づいてdSFTまたは蒸留監督微調整を使用し、フィードバックデータに対してdDPOまたはノイズ除去拡散ポリシーオプティマイゼーション手法を適用します。実験の結果、70億のパラメータを持つZephyr-7Bフレームワークは、人間のフィードバックに合わせたチャットモデルと同等の結果を提供します。さらに、対話能力を考慮したベンチマークや通常の学術的ベンチマークの両方で結果を改善できることが実験によって示されており、好み学習の使用は望ましい結果を達成するために重要です。

上記の図は、MT-benchベンチマークにおけるさまざまな言語モデルのパフォーマンスを示しています。dDPOアプローチを使用して訓練されたZephyr-7Bフレームワークは、GPT-3.5 turbo、Llama-2-70Bなどの独自およびオープンアクセスのより大きな言語モデルと比較されています。これらのフレームワークは、追加の強化学習を使用して訓練され、人間のフィードバックも大量に含まれています。これらのフレームワークが使用するパラメータの数には明らかな違いがあるにもかかわらず、Zephyr-7Bフレームワークはそれらのほとんどと比較可能な結果を提供し、さまざまなドメインでいくつかのフレームワークを上回っています。

Zephyr-7B：手法、動作、およびアーキテクチャ

Zephyr-7Bフレームワークの主な目標は、オープンソースの大規模言語モデルがユーザーの意図にできるだけ近づくことを支援することであり、Zephyr-7Bフレームワーク全体を通じて、大量の教師モデルにアクセスできると想定して、プロンプト生成を使用してクエリされます。Zephyr-7Bは、InstructGPTフレームワークで使用される手法と似たアプローチを取り、効果的で正確な学習モデルを生成することを目指しています。

次の図は、Zephyr-7Bフレームワークの動作に関与する3つの主要なステップを簡単に示しています。

自己学習スタイルを使用した大規模データセット構築のためのdSFT。
チャットモデルのアンサンブルによるAIFコレクション、その後の優先度のバイナリ化、およびGPT-4によるスコアリング。
フィードバックデータを利用したdSFTモデルのdPO。

dSFTまたは蒸留された監督Fine-Tuning

このフレームワークは、まず、ユーザープロンプトに応答するように訓練する必要がある生の大規模言語モデルから始まります。伝統的に、これらのLLMフレームワークをユーザープロンプトに応答するように訓練するためには、高品質な命令とそれに対応する応答が含まれるデータセットを使用して、SFTまたは監督Fine Tuningが行われます。Zephyr-7Bフレームワークは、教師言語モデルにアクセスできるため、フレームワークは命令と応答を生成し、これらの命令と応答に直接モデルを訓練することができます。このアプローチはdSFTまたは蒸留されたSFTとして知られています。次の図は、SFTによって実行される蒸留を示しています。ここで、xはトピカルドメインの多様なセットを表す主な目的で構築されたシードプロンプトのセットを表し、yは新しいサンプル命令を表すx1によって洗練されたサンプル応答を表し、Cは最終データセットにおけるエンドポイントを表します。

好みを通じたAIフィードバック

LLMフレームワークが生成する応答の品質に関する追加の信号を提供できるため、人間のフィードバックは大規模言語モデルの割り当てに使用されます。ただし、Zephyrフレームワークは、人間のフィードバックの代わりに他のモデルの生成された出力について教師モデルからAIフィードバックを使用して蒸留を行うことを特徴としています。Zephyrフレームワークが採用するアプローチは、モデルの出力に対して教師モデルが優先度を提供するUltraFeedbackフレームワークのアプローチに影響を受けています。

SFTまたは監督Fine Tuningアプローチと同様に、まずプロンプトのセットが用意され、xは個々のプロンプトを表し、それらはLlama、Falcon、Claudeなどの4つのモデルのコレクションにフィードされます。各モデルは独自の応答を生成します。これらの応答は、GPT-3またはGPT-4などの教師モデルに入力として供され、モデルは入力応答のスコアを出力します。出力スコアを収集した後、モデルは最も高いスコアを持つ応答を保存します。

dDPOまたは蒸留された直接的な優先度最適化

dDPOはZephyrフレームワークの最終ステップであり、その主な目標は、学生の言語モデルを利用して報酬関数によって決定される優先モデル内で好ましい応答をランキングする確率を最大化することにより、dSFT教師モデルを磨き上げることです。AIフィードバックを使用した以前のステップでは、報酬に関して最大の最適化をするために、主にPPOまたはProximal Policy Optimizationのような強化学習の手法を使用しました。このステップでは、報酬をまずトレーニングし、現在のポリシーからサンプリングして更新を計算し、それによって最適化を最大化します。DPOまたはDirect Preference Optimizationは、静的データを使用して優先モデルを直接最適化するために同様のアプローチを取ります。報酬関数を優先モデルに組み込むことの目的は次のように表されます。

Zephyr-7B：実験、ベンチマーク、結果

Zephyrフレームワークでは、最新のMistral-7Bフレームワーク上での微調整実験を行っています。このフレームワークは、自然言語処理（NLP）のさまざまなタスクにおいて、より大きな言語モデルと比較可能なパフォーマンスを提供します。

データセット

Zephyrフレームワークでは、プロプライエタリとオープンモデルの混合から抽出した2つの対話データセットを使用して、効果的なチャットモデルを生成することができます。

UltraChat

UltraChatは、30のトピックとGPT-3.5-Turboフレームワークによって生成された20のテキスト素材を対象とした、約150万のマルチターンの対話を含む自己改善データセットです。UltraChatデータセットが直面する大文字の誤用の問題に対処するため、フレームワークは正規のケース処理アプローチを適用して文法エラーを取り除きます。

UltraFeedback

UltraFeedbackは、64,000以上のプロンプトからなるプロンプトデータセットであり、各プロンプトには4つの個別なLLM応答があります。Zephyrフレームワークでは、UltraFeedbackデータセットから得られた最高の平均スコアを使用してバイナリの優先順位を構築し、残りの3つのLLM応答のうちの1つをランダムに拒否します。

評価

Zephyrフレームワークのパフォーマンスを評価するために、開発者はユーザーの指示に従って適切に応答するモデルの能力を評価するための1ターンおよびマルチターンの2つのチャットベンチマークを選択しました。

MT-Bench

MT-Bench評価ベンチマークには、8つの異なる知識領域にわたる160の質問が含まれており、このベンチマークではモデルは初期の質問に答え、その後の質問に応答する必要があります。

AlpacaEval

AlpacaEvalは、ヘルプフルさに重点を置いたさまざまなトピックにわたる800以上の質問に対してユーザー応答を生成するシングルターンのベンチマークです。

これらの2つの主要なベンチマークに加えて、Zephyr-7Bフレームワークは、多クラス分類タスクのOpen LLMリーダーボード、ARC、HellaSwag、MMLUなどで評価されます。さらに、Zephyr-7Bフレームワークが評価されるベンチマークに関係なく、プロプライエタリとオープンモデルの範囲と比較され、そのアライメント手順が唯一の差別化要素となります。

結果

さあ、Zephyr-7Bフレームワークのパフォーマンスと現在の最先端の言語モデルとの比較を見てみましょう。

dDPOアプローチの実装によりチャットの能力が向上

以下の表は、Zephyr-7BフレームワークのパフォーマンスをAlpacaEvalおよびMT-Benchベンチマークで最先端の言語モデルと比較したものです。

明らかに見るように、Zephyr-7Bフレームワークは、オープンな7Bモデルに対して、dSFTモデルよりも優れたパフォーマンスを発揮するだけでなく、新たな最先端の基準を樹立しています。さらに、Zephyr-7Bフレームワークは、dPPOや蒸留PPOアプローチで訓練されたモデルの中でも珍しいXWIN-LM-7Bフレームワークをも凌駕することに成功しています。また、Zephyr-7Bフレームワークのパフォーマンスは、70Bのパラメータを持つLlama2-Chatのような大規模な言語モデルとも比較可能です。

dDPOが学術課題のパフォーマンスを向上

以下の図は、Zephyr-7BフレームワークのパフォーマンスをさまざまなオープンソースやプロプライエタリLLMフレームワークと比較しています。

見てわかるように、Zephyr-7Bフレームワークは7Bのパラメータを持つLLMフレームワークを大幅に上回り、最も優れたdSFTモデルのパフォーマンスとの間にも差があります。パラメータ数が増えるにつれて、Zephyr-7Bフレームワークはやや劣りますが、40兆パラメータを持つフレームワークと同等のパフォーマンスを発揮します。

選好最適化

次の図では、アライメントプロセスでの異なるステップがパフォーマンスにどのように影響を与えるかを評価しています。観察できるように、dDPOアプローチをdSFTと組み合わせることで、MT-BenchとAlpacaEvalの両データセットでのパフォーマンスが大幅に向上しています。

最後に、以下の図ではDPOの実装中のテストと訓練の精度が示されています。見てわかるように、DPOアプローチはタスクのパフォーマンスに影響を与えません。

結論

本記事では、現在の最先端のMistral-7BフレームワークをベースにしたZephyr-7Bフレームワークについて説明しました。このフレームワークの主な目的は、開発者がユーザーの意図により近いアライメントを実現するための、より小さい大規模言語モデルの作成を可能にすることです。Zephyr-7Bフレームワークは、dSFTなどの大規模LLMフレームワークへの現行のアプローチの適用を検証するだけでなく、ユーザーの意図とのより良いアライメントを持つチャットモデルを学習するための他のアプローチの可能性も探求しています。

ただし、有望な結果にもかかわらず、Zephyr-7Bフレームワークには完璧ではない点や改善が必要な点もあります。おそらく最も明らかな制限の1つは、MT-BenchとAlpacaEvalのベンチマークを評価するためにGPT-4フレームワークを使用していることであり、これはしばしば自身のモデルに偏った結果を生み出す傾向があります。しかし、Zephyr-7Bフレームワークは、ユーザーの意図や対話に合わせることができるより小さいオープンモデルの能力を探る道を切り開くことを目指しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

Zephyr LLM アライメントの直接蒸留

Zephyr-7B：言語モデルの直接蒸留についての紹介

Zephyr-7B：手法、動作、およびアーキテクチャ

dSFTまたは蒸留された監督Fine-Tuning

好みを通じたAIフィードバック

dDPOまたは蒸留された直接的な優先度最適化

Zephyr-7B：実験、ベンチマーク、結果

データセット

UltraChat

UltraFeedback

評価

MT-Bench

AlpacaEval

結果

dDPOアプローチの実装によりチャットの能力が向上

dDPOが学術課題のパフォーマンスを向上

選好最適化

結論

Was this article helpful?

GPUマシンの構築 vs GPUクラウドの利用

注釈の習得：LabelImgとのシームレスなDetectron統合

人工知能

エンテラソリューションズの創設者兼CEO、スティーブン・デアンジェリス- インタビューシリーズ

「15Rockの共同創業者兼CEO、ガウタム・バクシ氏によるインタビューシリーズ」

「サティスファイラボのCEO兼共同創設者、ドニー・ホワイト- インタビューシリーズ」

2023年にAmazonのデータサイエンティストになる方法は？

「ジンディのCEO兼共同創設者、セリーナ・リー― インタビューシリーズ」

「トリントの創設者兼CEO、ジェフ・コフマンへのインタビューシリーズ」