「Zephyr-7Bの内部：HuggingFaceの超最適化LLM、より大きなモデルを上回り続けている」

「ゼファー7Bの内部：HuggingFaceの超最適化LLMが、より大きなモデルを上回り続ける」

モデルはMistral-7bの微調整版を表しています。

Created Using DALL-E 3 — DALL-E 3を使用したもの

私は最近、既に16万人以上の購読者を持つAIに焦点を当てた教育ニュースレターを始めました。TheSequenceは、5分で読めるハイプやニュースのない、ML志向のニュースレターです。目標は、機械学習のプロジェクト、研究論文、概念について最新情報を提供することです。下記のリンクから購読してみてください：

TheSequence | Jesus Rodriguez | Substack

ZEPHYR-7Bの使用方法

ZEPHYR-7BはHuggingFaceのtransformersライブラリを使って非常にシンプルなインターフェースで利用することができます。ZEPHYR-7Bを実行するためには、ライブラリのpipeline()関数を呼び出すだけです。

# Install transformers from source - only needed for versions <= v4.34# pip install git+https://github.com/huggingface/transformers.git# pip install accelerateimport torchfrom transformers import pipelinepipe = pipeline("text-generation", model="HuggingFaceH4/zephyr-7b-alpha", torch_dtype=torch.bfloat16, device_map="auto")# We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templatingmessages = [    {        "role": "system",        "content": "あなたはいつも海賊のスタイルで応答するフレンドリーなチャットボットです",    },    {"role": "user", "content": "一度に人間はヘリコプターを何機食べることができるのでしょうか？"},]prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)print(outputs[0]["generated_text"])# <|system|># あなたはいつも海賊のスタイルで応答するフレンドリーなチャットボットです。</s># <|user|># 一度に人間はヘリコプターを何機食べることができるのでしょうか？</s># <|assistant|># あぁ、めの仲間よ！だがお前の質問は難問だな！人間はヘリコプターを一度に食べることはできないよ、なぜならヘリコプターは食べられないものだ。それは金属やプラスチックなどの材料でできていて、食べ物ではないのだ！

結果

Hugging FaceのZEPHYR-7Bの主な評価は、モデルが指示に従い、異なるドメインで複雑なプロンプトに応答する能力を計測するシングルターンとマルチターンのチャットベンチマークに焦点を当てています。

1. MT-Bench：このマルチターンのベンチマークは、8つの異なる知識領域を含む160の質問からなります。MT-Benchでは、モデルは最初の質問に回答し、その後に事前に定義された質問に対して追加の応答を提供するという課題に直面します。各モデルの応答の品質は、GPT-4によって1から10のスケールで評価されます。最終的なスコアは、2つのターン上の平均評価から導き出されます。

2. AlpacaEval：一方、AlpacaEvalはシングルターンのベンチマークであり、モデルにはさまざまなトピックを含む805の質問に対して回答を生成することが求められます。GPT-4もこれらモデルの応答を評価します。ただし、最終的なメトリックは基準モデルとの対戦勝率です。

これらのベンチマークに加えて、Hugging FaceはZEPHYR-7Bの性能をOpen LLM Leaderboardで評価しています。このリーダーボードは、ARC、HellaSwag、MMLU、およびTruthful QAを含む4つのマルチクラス分類タスクにおける言語モデルを評価するために設計されています。各タスクは独自の課題を提示し、モデルが分類性能に優れる必要があります。

結果は非常に印象的でした：

ZEPHYR-7Bは、高度に特化したタスクに向けた小型で高性能なLLMには場所があることを大きな妥当性を示しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceGenerative AILarge Language ModelsMachine learningThesequence

Was this article helpful?

93 out of 132 found this helpful

「Zephyr-7Bの内部：HuggingFaceの超最適化LLM、より大きなモデルを上回り続けている」

モデルはMistral-7bの微調整版を表しています。

TheSequence | Jesus Rodriguez | Substack

最新の機械学習、人工知能、データの進展について最も最新情報を提供するソース…

ZEPHYR-7Bの使用方法

結果

Was this article helpful?

統計力の解読：マーケティング研究における精度の鍵

GPTを使用した、OpenAIのパーソナルAIアプリのノーコードビルダー

機械学習

「Declarai、FastAPI、およびStreamlitを使用したLLMチャットアプリケーション— パート2 🚀」

「ネクサスフローのNexusRaven-V2がGPT-4を自分のゲームで打ち負かす方法！」

ミシガン州立大学の研究者たちは、規模の大きな一細胞遺伝子発現の分析をサポートするためのPythonライブラリ「DANCE」を開発しました

コンテンツモデレーションからゼロショット分類へ

「全てのOECDおよびG20加盟国において、インドがAIスキルと人材で1位にランクされました」

SiMa.aiが世界最強のAIチップをインドに持ち込む