Search Results AlpacaEval

ミストラルの最先端言語モデル、Mixtral 8x7bをご紹介しますGPT-3.5を超えるオープンアクセスAIです

大容量の言語モデルの領域は、Mixtral 8x7bの登場により、大きな進歩を遂げました。 Mistral AIは、印象的な機能と独自のアーキテクチャを持つこの新しいモデルを開発しました。このモデルは、Transformerモデルにおいて革新的なアプローチであるフィードフォワードレイヤーをスパースなエキスパート混合 (MoE) レイヤーで置き換えています。 Mixtral 8x7bは、1つのフレームワーク内に8つのエキスパートモデルを持つモデルです。このモデルはMixture of Experts（MoE）であり、Mixtralは卓越したパフォーマンスを実現できます。エキスパートの混合は、モデルが著しく少ない計算能力で事前学習されることを可能にします。これにより、モデルやデータセットのサイズを大幅に拡大することができるため、計算予算を増やさずに行うことができます。 MoEレイヤーにはルーターネットワークが組み込まれており、どのエキスパートがどのトークンを効率的に処理するかを選択します。12Bパラメータの密なモデルよりも4倍のパラメータを持っているにもかかわらず、Mixtralのモデルは、各タイムステップごとに2つのエキスパートが選択されるため、高速でデコードできます。 Mixtral 8x7bは32,000トークンのコンテキスト長の容量を持ち、Llama 2 70Bを上回り、さまざまなベンチマークでGPT3.5と比較可能または優れた結果を示しています。研究者は、このモデルがさまざまなアプリケーションに対して柔軟に対応できると述べています。それは多言語対応であり、英語、フランス語、ドイツ語、スペイン語、イタリア語で流暢さを示しています。また、コーディングの能力も優れており、HumanEvalテストで40.2%のスコアを獲得し、包括的な自然言語処理ツールであることが確認されました。 Mixtral Instructは、MT-BenchやAlpacaEvalなどの業界標準でのパフォーマンスを示しました。MT-Benchでは、他のどのオープンアクセスモデルよりも優れたパフォーマンスを発揮します。また、7,000,000,000のパラメータを持っているにもかかわらず、このモデルは8つのアンサンブルのように機能します。56,000,000,000のスケールには達しませんが、総パラメータ数はおよそ45,000,000,000です。また、Mixtral Instructはインストラクションやチャットモデルの領域で優れた性能を発揮し、その支配的な地位を確立しています。 Mixtral Instructのベースモデルには、他のベースモデルと整合する特定のプロンプト形式がありません。この柔軟性により、ユーザーは入力シーケンスをスムーズに信憑性のある継続に拡張したり、ゼロショット/フューショットの推論に利用したりすることができます。ただし、事前トレーニングのデータセットの寸法、構成、および前処理方法についての完全な情報はまだ不明です。同様に、Mixtral InstructモデルのDPO（ドメイン提供目的）およびSFT（いくつかのファインチューニング）に使用されるファインチューニングデータセットと関連するハイパーパラメータも不明です。要約すると、Mixtral…

ハグ顔（Hugging Face）での最新技術の組み合わせであるミクストラル（Mixtral）へようこそ

Mixtral 8x7bは、ミストラルが本日リリースした刺激的な大型言語モデルで、オープンアクセスモデルの最新技術基準を上回り、多くのベンチマークでGPT-3.5を凌駕しています。私たちは、MixtralをHugging Faceエコシステムに包括的に統合してのローンチをサポートすることに興奮しています🔥！本日リリースされる機能と統合には以下があります：ハブ上のモデル、モデルカードとライセンス（Apache 2.0） 🤗 Transformers統合推論エンドポイントとの統合高速で効率的な本番推論のためのテキスト生成推論との統合 🤗 TRLを使用した単一のGPUでのMixtralの微調整の例目次 Mixtral 8x7bとは何ですか名前についてプロンプト形式分からないことデモ推論 🤗 Transformersを使用するテキスト生成推論を使用する 🤗…

ChatGPTの初めての記念日：AIインタラクションの未来を変える

私たちの包括的な記事で、ChatGPTの1年間の旅とオープンソースのLarge Language Models（LLMs）の進化を探求してください技術の進歩、産業への応用、医療への影響、そしてAIの未来についての洞察を深く掘り下げますまた、OpenAIの噂されるQ*モデルについても触れます

スターリング-7B AIフィードバックからの強化学習によるLLM

UCバークレーの研究チームが、オープンソースの大規模言語モデル（LLM）であるStarling-7Bを導入しています。このモデルは人工知能フィードバック（RLAIF）からの強化学習を使用し、最新のGPT-4ラベル付きランキングデータセットであるNectarの力を活用しています。洗練された報酬トレーニングとポリシーチューニングパイプラインを組み合わせたStarling-7B-alphaは、言語モデルの性能において新たな基準を打ち立て、MT-Benchを除くすべてのモデルをしのぐ性能を発揮しています（ただし、OpenAIのGPT-4とGPT-4 Turboには及ばない）。強化学習の可能性教師あり微調整はチャットボットシステム開発において効果を示していますが、人間のフィードバックからの強化学習（RLHF）またはAIフィードバック（RLAIF）の可能性は限定的に調査されてきました。Zephyr-7BやNeural-Chat-7Bのような既存のモデルは、主導的な微調整（SFT）モデルと比較してRLHFの潜在能力を十分に示していませんでした。この問題に対処するため、研究チームはNectarを導入しました。これは、チャットに特化した高品質なランキングデータセットであり、183,000のプロンプトと3,800,000のペアワイズ比較からなります。このデータセットはRLHFの研究をより詳細に行うことを目的とし、さまざまなモデルから収集されたさまざまなプロンプトを提供しています。報酬モデルであるStarling-RM-7B-alphaおよびファインチューンされたLLMであるStarling-LM-7B-alphaのHuggingFaceでのリリースは、オープンソースAI研究の重要な進展を示しています。このモデルのMT-Benchスコアは、7.81から印象的な8.09に向上し、チャットボットの助けになる度合いを測るAlpacaEvalの向上も88.51％から91.99％に大幅に改善されました。他にも読む: 強化学習とは何か、そしてそれはどのように機能するのか（2023年）モデルの評価 Starling-7Bの評価には独自の課題があります。このLLMは、RLHF後の助けや安全性の機能が向上していることを示すMT-BenchおよびAlpacaEvalスコアの改善が証明されています。ただし、知識ベースの質問応答や数学、コーディングに関連する基本的な機能は一貫しているか、わずかな回帰を経験しています。直接チャットや匿名の比較のためにLMSYSチャットボットアリーナに組み込まれることで、人間の選好をテストするプラットフォームが提供されます。評価はまた、チャットモデルのベンチマークとしてのOpenLLMリーダーボードの使用における制限を強調し、Alpaca EvalとMT-Benchによるニュアンスのある評価の重要性を強調しています。合成優先データのGoodhartの法則考慮すべき重要な点は、合成された優先データのGoodhartの法則です。より高いMT-Benchスコアは、GPT-4による改善されたモデルの性能を示していますが、それが必ずしも人間の選好と相関するわけではありません。RLHFは主に応答スタイルを向上させることに寄与しており、特に助けや安全性の側面でスケーリングオンラインRL方法のポテンシャルを示しています。制限事項 Starling-7Bは優れた性能を持っていますが、推論や数学に関わるタスクには苦労しています。また、ジェイルブレイキングのプロンプトへの感受性や出力の冗長さなどの制限も認識されています。研究チームは改善のためにコミュニティとの協力を求めており、RLHFを使用したオープンデータセット、報酬モデル、言語モデルの向上に取り組んでいます。私たちの意見 RLAIFアプローチと綿密なデータセット作成を備えたStarling-7Bは、言語モデルにおける強化学習のポテンシャルを示すものです。課題や制約はまだ残っていますが、改善への取り組みと大規模なコミュニティとの協力により、Starling-7BはAI研究の進展する風景において輝く存在となっています。RLHFメカニズムの洗練とAI安全性研究の最前線への貢献について、さらなるアップデートをお楽しみに。

Zephyr LLM アライメントの直接蒸留

近年、小さなオープン大規模言語モデルの能力とパフォーマンスは大幅に向上しており、初期のGPT-2モデルからよりコンパクトで正確かつ効果的なLLMフレームワークへの進歩を目撃してきましたこれらのフレームワークは、Chinchillaスケーリングが推奨する「計算最適」トークン量よりもはるかに多くのトークンを使用しています

Zephyr-7B：HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bの上に構築

「Zephyr-7B」という画期的な大型言語モデルを詳しく見てみましょう「知識の蒸留」を活用して、AIの効率性とアクセシビリティの新基準を確立し、会話AIの未来を形作っている方法を発見しましょう

「LLMを評価するためのより良い方法」

この記事は、NLPタスクによってカテゴリ分けされたリアルワールドのユーザープロンプトに対するLLMの応答を比較し、人間の洞察を活用したLLM評価の新しいアプローチを紹介していますこれは、LLM評価基準の向上に向けた有望な解決策を提供しています

「Zephyr-7Bの内部：HuggingFaceの超最適化LLM、より大きなモデルを上回り続けている」

ZEPHYR-7Bは、AIコミュニティで非常に好評を得ている新世代の大型言語モデル（LLM）の1つですHugging Faceによって作成されたこのモデルは、効果的に最適化されたバージョンです...

マイクロソフトの研究者たちは、FP8混合精度トレーニングフレームワークを公開しました：大規模な言語モデルのトレーニング効率を超高速化します

大型言語モデルは、言語生成と理解の能力において以前に類を見ない優れた能力を示しており、論理学、数学、物理学、他の領域の先進に道を開いています。ただし、LLMのトレーニングは非常に高額です。たとえば、540Bモデルをトレーニングするには、PaLMには6,144個のTPUv4チップが必要であり、GPT-3175Bは事前トレーニングに数千ペタフロップ/秒の計算が必要です。これは、特に次世代の非常に知的なモデルを拡大するために、LLMのトレーニングコストを低くする必要性を示しています。コストを節約するための最も有望なアプローチの1つは、低精度トレーニングです。このアプローチは、高速な処理、少ないメモリ使用量、最小限の通信オーバーヘッドを提供します。現在のほとんどのトレーニングシステム（Megatron-LM、MetaSeq、Colossal-AIなど）は、デフォルトでFP16/BF16のミックス精度またはFP32の完全精度を使用してLLMをトレーニングします。大規模なモデルの場合、これは完全な精度を得るためのオプションですが、FP8はNvidia H100 GPUの登場により、次世代の低精度表現のデータ型として台頭しています。既存の16ビットと32ビットの浮動小数点ミックス精度トレーニングと比較して、FP8には理論的に2倍の高速化、50％から75％のメモリコスト削減、50％から75％の通信コスト削減の潜在能力があります。これらの結果は、次世代の基礎となるモデルのスケーリングに非常に有望です。残念ながら、FP8トレーニングへのサポートはもっと少なく、時間的に間隔のあるものが必要です。Nvidia Transformer Engineは唯一の実用的なフレームワークですが、GEMM計算にはFP8のみを使用し、マスターウェイトとグラデーションは極めて正確なFP16またはFP32のように維持します。これにより、エンドツーエンドのパフォーマンス向上、メモリの節約、および通信コストの節約は比較的少なくなり、FP8のフルポテンシャルは隠されてしまいます。 Microsoft AzureとMicrosoft Researchの研究者は、この問題を解決するためにLLMのトレーニングに非常に効率的なFP8ミックス精度フレームワークを提供しています。主なコンセプトは、ビッグモデルのトレーニングプロセス中に、計算、ストレージ、通信において低精度FP8を活用することです。これにより、以前のフレームワークと比較して、システム要件を大幅に削減することができます。より具体的には、彼らはFP8を使用して最適化ステージを3つ作成し、オプティマイザ、分散並列トレーニング、8ビットの集合通信を段階的に導入します。より大きな最適化レベルは、LLMのトレーニングプロセスでより多くのFP8が使用されたことを示しています。さらに、彼らのシステムはテンソル、パイプライン、およびシーケンスの並列性を含むFP8低ビット並列性を提供します。これにより、数千のGPUでトレーニングされたGPT-175Bなどの大規模なトレーニングが可能になり、次世代の低精度並列トレーニングの扉が開かれます。 FP8を使用したLLMのトレーニングには、作業が必要です。データオーバーフローやアンダーフローなどの問題に起因する固有のダイバージェンスや数値不安定性などの問題が発生します。これらの問題に対処するために、彼らは2つの方法を提案しています。情報の損失を防ぐための自動スケーリングと、重み、勾配、およびオプティマイザーの状態などのパラメータにおけるデータ精度の影響を分離するための精度切り離しです。最初の方法は、非精度に敏感でないコンポーネントの精度を低下させ、テンソルのスケーリング係数の動的調整により、FP8データフォーマット表現範囲内の勾配値を保持することです。これにより、全体の通信中にアンダーフローやオーバーフローの発生が防止されます。彼らは、検証のために監督付き微調整と事前トレーニングを含むGPTスタイルのモデルトレーニングに提案されたFP8低精度フレームワークを使用します。彼らのFP8手法をよく使用されるBF16ミックス精度トレーニングアプローチと比較すると、実験結果は、実メモリ使用量の27%〜42%の減少や、重み勾配通信オーバーヘッドの63%〜65%の著しい減少など、重要な改善を示しています。FP8でトレーニングされたモデルは、学習率や重み減衰などのハイパーパラメータの調整なしに、BF16の高精度を使用するモデルと同等の性能を示します。GPT-175Bモデルのトレーニングでは、彼らのFP8ミックス精度フレームワークがH100 GPUプラットフォーム上で21%少ないメモリを使用し、TEよりも17%短いトレーニング時間を節約することに注目すべきです。図1：クラスター内のNvidia H100 GPU with 80G RAMを使用した場合に達成可能な最大モデルサイズの比較。当社のFP8混合精度トレーニング方法とより一般的なBF16方法を使用しています。さらに重要なことは、Fig. 1に示すようにモデルのスケールが増加すると、低精度のFP8を使用することで得られるコスト削減をさらに向上させることができることです。事前学習されたLLMsをエンドタスクとユーザーの好みにより適合させるために、彼らは指示の微調整とヒューマンインプットによる強化学習にFP8混合精度を使用しています。特に、彼らは公開されているユーザー共有の指示に従うデータを使用して事前学習済みモデルを微調整します。彼らのFP8混合精度で調整されたモデルは、BF16の半精度を使用したモデルと比較して、AlpacaEvalとMT-Benchベンチマークで同様のパフォーマンスを発揮します。さらに、FP8混合精度はトレーニング中に多くのモデルをロードする必要があるRLHFにおいて非常に有望です。人気のあるRLHFフレームワークであるAlpacaFarmは、トレーニング中にFP8を使用することで、モデルの重量を46%減少させ、オプティマイザの状態のメモリ使用量を62%削減することができます。これは、彼らのFP8低精度トレーニングアーキテクチャの柔軟性と適応性をより一層示しています。彼らが将来の世代のLLM向けのFP8低精度トレーニングの発展に貢献している内容は以下の通りです。• FP8による混合精度トレーニングのための新しいフレームワーク。このフレームワークは使いやすく、8ビットの重み、勾配、オプティマイザ、および分散トレーニングを段階的に解除します。現在の16/32ビット混合精度の代替として、ハイパーパラメータとトレーニングレシピを変更するだけで、この8ビットフレームワークに簡単に切り替えることができます。また、数行のコードで8ビット低精度トレーニングを可能にするPytorchの実装も提供しています。新しいFP8トレーニングされたGPTスタイルモデル。彼らは提案されたFP8スキームの能力を、7Bから175Bパラメータのモデルに適用することで示しています。彼らは、テンソル、パイプライン、シーケンスの並列処理をFP8に対応させ、大規模な基礎モデルのトレーニングにFP8を使用することを可能にしています。最初のFP8…

「GPT-4 対ゼファー-7b-beta：どちらを使うべきか？」

「ゼファー7Bベータ」は、Hugging Face H4チームによって開発されたモード「ミストラル」の調整版であり、複数のベンチマークテストで以前のChat Llama 70Bモデルと同様のパフォーマンスを発揮し、「MT Bench」ではさらに優れた結果を示しており、MetaのLLama 2よりも正確です

Learn more about Search Results AlpacaEval