Learn more about Search Results AlpacaEval - Page 2

「小規模言語モデルにおける意図の調整の解除:Zephyr-7Bの突破を目指した、蒸留された教師あり微調整とAIフィードバックの包括的ガイド」

ZEPHYR-7Bは、AIフィードバック(AIF)データを使用した蒸留直接好み最適化(dDPO)を通じてユーザーの意図整合性に最適化された、小型の言語モデルです。この手法は、人間の注釈なしで意図の整列を効果的に向上させ、7Bパラメータモデルのトップパフォーマンスを実現します。この手法はAIFからの好みデータに依存し、トレーニング時間を最小限に抑え、ファインチューニング中の追加サンプリングは必要ありません。これにより、新たな最先端を樹立しています。 研究者は、ChatGPTなどのLLMの普及と、その派生モデルであるLLaMA、MPT、RedPajama-INCITE、Falcon、Llama 2に取り組んでいます。ファインチューニング、コンテキスト、検索補完生成、および量子化の進歩が強調されています。より小さいモデルのパフォーマンスを向上させるための蒸留技術、モデル評価のツールとベンチマークも議論されています。この研究では、ZEPHYR-7BのパフォーマンスをMTBench、AlpacaEval、HuggingFace Open LLM Leaderboardで評価しています。 この研究では、精度とユーザーの意図の整列を向上させるために、蒸留教師付きファインチューニング(dSFT)を使用した、より小型のオープンLLMの強化方法について検討しています。それは、人間の注釈なしでLLMを整列させるためにdDPOを導入し、教師モデルからのAIFに頼っています。研究者は、dSFT、AIFデータ、およびdDPOを介したMistral-7Bの整列版であるZEPHYR-7Bを紹介し、人間のフィードバックに整列した70Bパラメーターのチャットモデルと同等のパフォーマンスを示しています。この研究は、LLM開発における意図の整列の重要性を強調しています。 この手法では、モデルを高品質のデータでトレーニングするためにdSFTを組み合わせ、応答の好みを最適化するためにdDPOを利用して言語モデルを強化する方法が提案されています。教師モデルからのAIFを使用してユーザーの意図との整列性を改善します。このプロセスでは反復的なセルフプロンプティングを使用してトレーニングデータセットを生成します。その結果得られたZEPHYR-7Bモデルは、dSFT、AIFデータ、およびdDPOを介して達成され、改善された意図の整列性を持つ最先端のチャットモデルを表しています。 7BパラメータモデルであるZEPHYR-7Bは、オープンアクセスのRLHFベースモデルであるLLAMA2-CHAT-70Bを超えて、チャットのベンチマークで新たな最先端を確立しています。AlpacaEvalではGPT-3.5-TURBOとCLAUDE 2と競り合っていますが、数学やコーディングのタスクでは遅れています。7Bモデルの中で、dDPOモデルは優れており、dSFTとXwin-LM dPPOを上回っています。ただし、より大きなモデルは知識集約型のタスクでZEPHYRを上回っています。Open LLM Leaderboardでの評価では、ZEPHYRの多クラス分類タスクにおける強さが示され、ファインチューニング後の思考力と真実性の能力が確認されています。 ZEPHYR-7Bは、意図の整列性を高めるために直接好み最適化を採用しています。この研究は、評価者としてGPT-4を使用する際の潜在的なバイアスを強調し、ユーザーの意図との整列性に対するより小さいオープンモデルの能力を探求することを推奨しています。有害な出力や違法な助言などの安全性に関する考慮事項の欠落について指摘し、この重要な領域における今後の研究の必要性を示しています。 この研究では、将来の研究のいくつかの展望が明らかにされています。有害な出力や違法なアドバイスに対する安全性の考慮事項は、まだ探求されていません。より大きな教師モデルが学生モデルのパフォーマンス向上にどのような影響を与えるかを調査することが提案されています。蒸留における合成データの使用は困難ですが、価値ある研究領域として認識されています。ユーザーの意図に合わせるためのより小さいオープンモデルとその能力のさらなる探求は、可能な進歩を目指しており、広範なベンチマークとタスクでZEPHYR-7Bの能力を包括的に評価することが推奨されています。

清華大学研究者がOpenChatを導入:ミックス品質データでオープンソース言語モデルを拡張する新しい人工知能AIフレームワークを紹介

自然言語処理の急速な進化において、大規模な言語モデルの能力は指数関数的に成長しています。研究者や組織は世界中で、これらのモデルの性能を向上させるために、さまざまな自然言語理解と生成のタスクで、これらのモデルの限界に挑戦し続けています。これらのモデルの進展の中でも重要な要素の一つは、それらが依存するトレーニングデータの品質です。この記事では、オープンソースの言語モデルの品質向上への取り組みについての研究論文について詳しく解説します。この研究では、混合品質のデータを使用してオープンソースの言語モデルを向上させる方法とその技術、自然言語処理への影響について探求しています。 エキスパートが生成したデータと最適でないデータなどの混合品質のデータは、言語モデルのトレーニングにおいて重要な課題です。GPT-4のような最新のモデルによって生成されるエキスパートデータは通常高品質であり、トレーニングのゴールドスタンダードとして機能します。一方、GPT-3.5のような古いモデルからの最適でないデータは品質が低く、トレーニング中に課題を提供します。この議論対象の研究では、この混合品質のデータのシナリオに対処し、オープンソースの言語モデルの指示に従う能力を向上させることを目指しています。 提案された方法に入る前に、現在の言語モデルのトレーニングで使用されている現行の方法とツールについて簡単に触れてみましょう。これらのモデルを向上させる一つの一般的なアプローチは、教師ありのFine-Tuning(SFT)です。SFTでは、高品質のエキスパートデータを使用して、指示に従うタスクでモデルをトレーニングし、正しい応答の生成を導きます。さらに、強化学習Fine-Tuning(RLFT)の方法が人気を集めています。RLFTは人間からの好みのフィードバックを収集し、これらの好みに基づいて報酬を最大化するようモデルをトレーニングします。 清華大学は、オープンソースの言語モデルを混合品質のデータを使用して向上させる革新的な方法を提案しました。その中心には、Conditioned Reinforcement Learning Fine-Tuning(C-RLFT)という新しいトレーニング方法があり、このトレーニング方法はトレーニングプロセスを簡素化し、報酬モデルへの依存を減らします。 C-RLFTは、品質に基づいて異なるデータソースを区別することにより、言語モデルの入力情報を豊かにします。この区別は、クラス条件付きポリシーの実装によって達成されます。このポリシーは、モデルがエキスパートが生成した高品質のデータと最適でないデータ(品質が低い)を区別するのに役立ちます。これにより、C-RLFTはモデルに明示的な信号を提供し、指示に従う能力を向上させることが可能です。 OpenChat、特にopen chat-13 bモデルのパフォーマンスは、さまざまなベンチマークで評価されています。その中でも注目すべきベンチマークの一つは、AlpacaEvalです。ここでは、モデルの指示に従う能力がテストされます。Openchat-13bは、LLaMA-2などの13兆パラメータのオープンソースモデルよりも優れた結果を示し、指示に従うタスクで高い勝率と優れたパフォーマンスを達成し、C-RLFT方法の有効性を示しています。 研究チームが強調するデータの品質の重要性は、重要な点です。数量は限られていますが、エキスパートデータは言語モデルのパフォーマンスを向上させるために重要な役割を果たします。エキスパートデータと最適でないデータを区別し、C-RLFTの方法と組み合わせることで、モデルのパフォーマンスを劇的に向上させることができます。この結果は、言語モデルのトレーニングの成功を保証するために、品質の高いトレーニングデータを選定することの重要性を強調しています。 意義と今後の研究 OpenChatのフレームワークとC-RLFTメソッドは、自然言語処理の将来において有望です。このアプローチは、トレーニングプロセスを簡素化し、複雑な報酬モデルへの依存度を低減することにより、研究や開発の新たな可能性を開拓します。また、品質の異なるデータへの対応も課題とされており、多様なトレーニングデータを効果的に活用する手段を提供します。 まとめると、OpenChatは品質の異なるデータを活用してオープンソースの言語モデルを強化する革新的な解決策を提案しています。C-RLFTメソッドを導入することで、このアプローチはベンチマークでのパフォーマンスに表れているように、優れた指示に従う能力を実現しています。自然言語処理が進化し続ける中で、OpenChatのような革新的な技術はより効率的かつ効果的な言語モデルのトレーニングを可能にします。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us