Search Results UltraChat

「2023年、オープンLLMの年」

2023年には、大型言語モデル（Large Language Models、LLMs）への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります（その他の利点もあります）。では、オープンLLMsの今年を振り返ってみましょう！文章が長くなりすぎないようにするために、コードモデルには触れません。 Pretrained Large Language Modelの作り方まず、大型言語モデルはどのようにして作られるのでしょうか？（もし既に知っている場合は、このセクションをスキップしてもかまいません）モデルのアーキテクチャ（コード）は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです（詳細は元のトランスフォーマーペーパーをご覧ください）。訓練データセットには、モデルが訓練された（つまり、パラメータが学習された）すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語（例：フランス語、英語、中国語）、プログラミング言語（例：Python、C）またはテキストとして表現できる構造化データ（例：MarkdownやLaTeXの表、方程式など）のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します（モデルは数学的な関数であり、したがって入力として数値が必要です）。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます（トークン化方法によっては単語、サブワード、または文字になる場合があります）。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります！訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか？モデルの更新速度はどのくらいですか？これらのパラメータが選択されたら、モデルを訓練するためには1）大量の計算パワーが必要であり、2）有能な（そして優しい）人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化（訓練用のハードウェア上での行列の作成）および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論（つまり、新しい入力の予測やテキストの生成など）に使用することができます。事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる（通常はより専門化された小規模な）データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。 2022年 – サイズの競争からデータの競争へ 2023年以前、コミュニティで利用可能だったオープンモデルはありましたか？ 2022年初頭まで、機械学習のトレンドは、モデルが大きければ（つまり、パラメータが多ければ）、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。 BLOOM（BigScience Large Open-science…

Zephyr LLM アライメントの直接蒸留

近年、小さなオープン大規模言語モデルの能力とパフォーマンスは大幅に向上しており、初期のGPT-2モデルからよりコンパクトで正確かつ効果的なLLMフレームワークへの進歩を目撃してきましたこれらのフレームワークは、Chinchillaスケーリングが推奨する「計算最適」トークン量よりもはるかに多くのトークンを使用しています

Zephyr-7B：HuggingFaceのハイパーオプティマイズされたLLM、Mistral 7Bの上に構築

「Zephyr-7B」という画期的な大型言語モデルを詳しく見てみましょう「知識の蒸留」を活用して、AIの効率性とアクセシビリティの新基準を確立し、会話AIの未来を形作っている方法を発見しましょう

「Zephyr-7Bの内部：HuggingFaceの超最適化LLM、より大きなモデルを上回り続けている」

ZEPHYR-7Bは、AIコミュニティで非常に好評を得ている新世代の大型言語モデル（LLM）の1つですHugging Faceによって作成されたこのモデルは、効果的に最適化されたバージョンです...

ミストラル7B：コンピューターでの微調整と量子化のためのレシピ

ミストラル7Bは、ミストラルAIが作成した非常に人気のある大規模言語モデル（LLM）です他の同じサイズの事前学習済みLLMを凌駕し、Llama 2 13Bなどのより大きなLLMよりも優れています...

シートベルトを締めてください：ファルコン180Bが登場しました！

「世界最大のオープンな言語モデルの世界に飛び込んでみましょう」

Artificial Intelligence

Salesforce AIとコロンビア大学の研究者が、DialogStudioを導入しましたこれは、80の対話データセットの統一された多様なコレクションであり、元の情報を保持しています

会話AIは近年、著しい進化を遂げ、機械とユーザーの間で人間のような対話を可能にしています。この進歩を推進している重要な要素の一つは、大規模で多様なデータセットの利用可能性であり、これらは洗練された言語モデルの訓練の基盤となっています。Salesforce AIとコロンビア大学の研究者は、DialogStudioという画期的なイニシアチブを紹介し、個別のデータセットと大規模言語モデル（LLM）のトレーニングに関する研究のための包括的な統一された対話データセットのコレクションを提供しています。統一された対話データセットの必要性効率的で多様な会話AIシステムの開発には、さまざまなドメインと対話タイプをカバーする多様なデータセットへのアクセスが求められます。従来、異なる研究グループが特定の会話シナリオに対応するために設計されたデータセットを提供していました。しかし、この分散したアプローチは、データセット間の比較と統合を困難にし、標準化と相互運用性の必要性を生じさせました。 DialogStudioは、ナレッジグラウンデッドダイアログ、自然言語理解、オープンドメインダイアログ、タスク指向ダイアログ、ダイアログ要約、会話推薦ダイアログなど、多様なカテゴリを代表する33の異なるデータセットを集約することで、この空白を埋めます。統一プロセスでは、各データセットからの元の情報を保持しながら、シームレスな統合とクロスドメインの研究を容易にします。ダイアログ品質評価データセットの品質とさまざまなアプリケーションへの適合性を確保するために、DialogStudioは包括的な対話品質評価フレームワークを採用しています。理解、関連性、正確性、一貫性、完全性、総合品質の6つの重要な基準に基づいて対話を評価することで、研究者や開発者はモデルのパフォーマンスを効果的に評価することができます。スコアは1から5のスケールで割り当てられ、より高いスコアは優れた対話を示します。 HuggingFaceを介したシームレスなアクセス DialogStudioは、自然言語処理リソースのための広く使用されているプラットフォームであるHuggingFaceを介して、その巨大なデータセットの便利なアクセスを提供します。研究者は、DialogStudio内のデータセットフォルダ名に対応するデータセット名を指定することで、素早く任意のデータセットをロードすることができます。この効率化されたプロセスにより、会話AIモデルの開発と評価が加速され、貴重な時間と労力が節約されます。モデルのバージョンと制限事項 DialogStudioでは、選択したデータセットでトレーニングされたモデルのバージョン1.0を提供しています。これらのモデルは、小規模な事前訓練モデルに基づいており、Alpaca、ShareGPT、GPT4ALL、UltraChatなどのモデルのトレーニングに使用される大規模なデータセットやOASST1やWizardCoderなどのその他のデータセットは組み込まれていません。創造力にいくつかの制約はありますが、これらのモデルは洗練さを開発するための堅固な出発点を提供します。 DialogStudioは、統一された広範で包括的な対話データセットのコレクションを提供することで、会話AIの開発における重要なマイルストーンです。さまざまなデータセットを一つの場所にまとめることで、DialogStudioは研究者や開発者により洗練された人間のような機械とユーザーの対話を探求する機会を与え、会話AIの将来を築く道を開いています。持続的な改善とコミュニティの参加を重視するDialogStudioは、今後数年間にわたり会話AIの未来を形作ることになるでしょう。

Learn more about Search Results UltraChat