「2023年、オープンLLMの年」

2023年には、大型言語モデル（Large Language Models、LLMs）への公衆の関心が急増しました。これにより、多くの人々がLLMsの定義と可能性を理解し始めたため、オープンソースとクローズドソースの議論も広範な聴衆に届くようになりました。Hugging Faceでは、オープンモデルに大いに興味を持っており、オープンモデルは研究の再現性を可能にし、コミュニティがAIモデルの開発に参加できるようにし、モデルのバイアスや制約をより簡単に評価できるようにし、チェックポイントの再利用によってフィールド全体の炭素排出量を低減するなど、多くの利点があります（その他の利点もあります）。

では、オープンLLMsの今年を振り返ってみましょう！

文章が長くなりすぎないようにするために、コードモデルには触れません。

Pretrained Large Language Modelの作り方

まず、大型言語モデルはどのようにして作られるのでしょうか？（もし既に知っている場合は、このセクションをスキップしてもかまいません）

モデルのアーキテクチャ（コード）は、特定の実装と数学的な形状を示しています。モデルのすべてのパラメータと、それらが入力とどのように相互作用するかがリストとして表されます。現時点では、大部分の高性能なLLMsは「デコーダーのみ」トランスフォーマーアーキテクチャのバリエーションです（詳細は元のトランスフォーマーペーパーをご覧ください）。訓練データセットには、モデルが訓練された（つまり、パラメータが学習された）すべての例と文書が含まれています。したがって、具体的には学習されたパターンが含まれます。ほとんどの場合、これらの文書にはテキストが含まれており、自然言語（例：フランス語、英語、中国語）、プログラミング言語（例：Python、C）またはテキストとして表現できる構造化データ（例：MarkdownやLaTeXの表、方程式など）のいずれかです。トークナイザは、訓練データセットからテキストを数値に変換する方法を定義します（モデルは数学的な関数であり、したがって入力として数値が必要です）。トークン化は、テキストを「トークン」と呼ばれるサブユニットに変換することによって行われます（トークン化方法によっては単語、サブワード、または文字になる場合があります）。トークナイザの語彙サイズは、トークナイザが知っている異なるトークンの数を示しますが、一般的には32kから200kの間です。データセットのサイズは、これらの個々の「原子論的」単位のシーケンスに分割された後のトークンの数としてよく測定されます。最近のデータセットのサイズは、数千億から数兆のトークンに及ぶことがあります！訓練ハイパーパラメータは、モデルの訓練方法を定義します。新しい例ごとにパラメータをどれだけ変更すべきですか？モデルの更新速度はどのくらいですか？

これらのパラメータが選択されたら、モデルを訓練するためには1）大量の計算パワーが必要であり、2）有能な（そして優しい）人々が訓練を実行し監視する必要があります。訓練自体は、アーキテクチャのインスタンス化（訓練用のハードウェア上での行列の作成）および上記のハイパーパラメータを使用して訓練データセット上の訓練アルゴリズムの実行からなります。その結果、モデルの重みが得られます。これらは学習後のモデルパラメータであり、オープンな事前学習モデルへのアクセスに関して多くの人々が話す内容です。これらの重みは、推論（つまり、新しい入力の予測やテキストの生成など）に使用することができます。

事前学習済みLLMsは、重みが公開されると特定のタスクに特化または適応することもあります。それらは、「ファインチューニング」と呼ばれるプロセスを介して、ユースケースやアプリケーションの出発点として使用されます。ファインチューニングでは、異なる（通常はより専門化された小規模な）データセット上でモデルに追加の訓練ステップを適用して、特定のアプリケーションに最適化します。このステップには、計算パワーのコストがかかりますが、モデルをゼロから訓練するよりも財政的および環境的にはるかにコストがかかりません。これは、高品質のオープンソースの事前学習モデルが非常に興味深い理由の一つです。コミュニティが限られたコンピューティング予算しか利用できない場合でも、自由に使用し、拡張することができます。

2022年 – サイズの競争からデータの競争へ

2023年以前、コミュニティで利用可能だったオープンモデルはありましたか？

2022年初頭まで、機械学習のトレンドは、モデルが大きければ（つまり、パラメータが多ければ）、性能が良くなるというものでした。特に、特定のサイズの閾値を超えるモデルは能力が向上するという考えがあり、これらの概念はemergent abilitiesとscaling lawsと呼ばれました。2022年に公開されたオープンソースの事前学習モデルは、主にこのパラダイムに従っていました。

BLOOM（BigScience Large Open-science Open-access Multilingual Language Model）は、BigScienceによってリリースされたモデルのファミリーです。BigScienceは、60カ国の1000人以上の研究者と250の機関が協力し、Hugging Face、フランスのGENCIおよびIDRISとの共同作業によって調整されました。これらのモデルは、デコーダのみを使用するトランスフォーマーを使用し、一部の修正（埋め込みの正規化後の処理[^1]およびALiBi位置埋め込み[^2]の使用）が行われています。このファミリーの最大のモデルは、46の人間の言語と13のプログラミング言語でマルチリンガルなデータの350Bトークンを使用して訓練された176Bパラメーターモデルです。ほとんどのトレーニングデータは公開され、そのソース、キュレーション、および処理の詳細が公開されています。これは、これまでで最も大きなオープンソースの大規模多言語モデルです。
OPT（Open Pre-trained Transformer）は、Metaによってリリースされたモデルファミリーです。これらのモデルは、GPT-3の論文のトリック（特定の重みの初期化、事前正規化）に従ったデコーダのみのトランスフォーマーアーキテクチャを使用し、注意機構にいくつかの変更（交互に密なレイヤーと局所的にバンドされた注意レイヤー）を加えています。このファミリーの最大のモデルは、主に公開されたソース（書籍、Redditを通じたソーシャルデータ、ニュース、Wikipedia、その他さまざまなインターネットソース）からのデータを180Bトークンで訓練した175Bパラメーターモデルです。このモデルファミリーは、コーディング最適化を使用して、GPT-3モデルと同等のパフォーマンスを実現し、計算負荷を減らしています。
GLM-130B（General Language Model）は、清華大学と志普AIによってリリースされました。これは、ディープノームとロータリー埋め込みを使用したフルトランスフォーマーアーキテクチャを採用しています。130Bパラメーターモデルは、英語と中国語のインターネットデータ（The Pile、Wudaoコーパス、その他の中国語コーパス）の400Bトークンで訓練されました。これは、GPT-3モデルと同等のパフォーマンスを発揮しました。
より小さなまたはより専門化されたオープンLLMいくつかの小規模なオープンソースモデルもリリースされました。Metaは、Galacticaシリーズをリリースしました。これは、科学文献の106Bトークンで事前にトレーニングされた最大120BパラメーターのLLMです。また、EleutherAIは、完全にオープンソース（アーキテクチャ、重み、データを含む）のデコーダトランスフォーマーモデルであるGPT-NeoX-20Bモデルをリリースしました。このモデルは、RoPEを使用し、注意と初期化にいくつかの変更を加えて、500Bトークンでトレーニングされました。これにより、科学的な調査に完全なアーティファクトが提供されます。

これらの巨大なモデルは興味深いものでしたが、実行するには非常に高価です。モデルの推論（モデルからの予測を計算する）を実行する場合、モデルをメモリにロードする必要がありますが、100Bパラメーターモデルは通常、220GBのメモリを必要とします（このプロセスについては後述します）。これは非常に大きく、ほとんどの組織や実践者にはアクセスできません！

しかし、2022年3月、DeepMindによる新しい論文が発表され、与えられた計算予算に対してトークンとモデルパラメーターの最適な比率が何であるかを調査しました。言い換えれば、モデルトレーニングに費やす金額がXである場合、モデルとデータのサイズはどれくらいであるべきかを調べました。著者らは、一般的には、LLMに費やされる平均計算予算について、モデルは小さく、しかしはるかに多くのデータで訓練されるべきであることを発見しました。彼ら自身のモデルであるChinchilla（オープンソースではありません）は、70Bパラメーターモデルであり、1.4Tトークンのデータ（3〜4倍のデータ）で訓練されました。それはそのより大きな競合他社のモデルと同等またはそれ以上のパフォーマンスを発揮しました。

このパラダイムシフトは、おそらくすでにクローズドラボで知られるようになっていましたが、オープンサイエンスコミュニティに衝撃を与えました。

2023年、オープンリリースの年

小さな大規模言語モデルの台頭

🌊 2023年には、デコーダースタイルのトランスフォーマーが一斉に現れ、新しい事前学習モデルが毎月、そしてやがては週ごと、さらには日ごとにリリースされました。2月にはLLaMA（Metaによる）、4月にはPythia（Eleuther AIによる）、5月にはMPT（MosaicMLによる）、6月にはX-GEN（Salesforceによる）とFalcon（TIIUAEによる）、7月にはLlama 2（Metaによる）。9月にはQwen（Alibabaによる）とMistral（Mistral.AIによる）、11月にはYi（01-aiによる）、12月にはDeciLM（Deciによる）、Phi-2、およびSOLAR（Upstageによる）がリリースされました。これらのリリースでは、a）モデルの重み（さまざまなオープンライセンスの下で）が含まれ、b）小さなサイズのモデル（3Bから70Bパラメータの間）のパフォーマンスが良かったため、すぐにコミュニティに採用されました。これらのモデルのほとんどはデコーダートランスフォーマーアーキテクチャを使用しており、さまざまなテイク（ALiBiまたはRoPE、RMSプリノーマライゼーション、SwiGLU）があり、注意機能（Flash-Attention、GQA、スライディングウィンドウ）にもいくつかの変更があります。また、トレーニングまたは推論のスピードを最適化するためのさまざまなコードベースの実装も異なります。これらのテイクは、パフォーマンスとトレーニングの速度にある程度影響を与える可能性があります。ただし、すべてのアーキテクチャが重みとともに公にリリースされているため、残っている主な違いはトレーニングデータとモデルのライセンスです。

🦙、🔮このシリーズの最初のモデルファミリーは、Meta AIによってリリースされたLLaMAファミリーでした。研究者たちの明示的な目標は、与えられた計算予算に対して最高のパフォーマンスを持つさまざまなサイズのモデルのセットをトレーニングすることでした。研究チームが初めて考慮に入れたのは、トレーニング予算だけでなく、モデルでの推論コスト（特定のパフォーマンス目標でのモデルの推論を実行するためにどれだけのコストがかかるか）も考慮することでした。この観点から、彼らは通常行われていた以上に、より多くのデータとステップでより小さなモデルをトレーニングすることを決定し、それにより、トレーニング計算効率性を犠牲にして、より小さいモデルサイズでより高いパフォーマンスに達しました。Llama 1ファミリーで最も大きなモデルは、1.4Tトークンでトレーニングされた65Bパラメータモデルであり、より小さなモデル（それぞれ6および13Bパラメータ）は1Tトークンでトレーニングされました。小さな13B LLaMAモデルは、ほとんどのベンチマークでGPT-3を上回り、最大のLLaMAモデルはリリース時点で最先端でした。ただし、ライセンスは非商用ライセンスであり、コミュニティによる採用が制限されました。オープンソースの非営利研究所Eleuther AIによってリリースされたPythiaモデルは、さまざまなサイズのLLMのスイートであり、完全に公開されたデータでトレーニングされており、研究者がLLMトレーニングの異なるステップを理解するのに役立つよう提供されました。

📂、🦅数ヶ月後にリリースされたMPTモデルは、MosaicMLによってリリースされ、商用利用を許可するライセンスとそのトレーニングミックスの詳細など、パフォーマンスは近かったです。最初のMPTモデルは7Bモデルであり、6月には30Bバージョンもリリースされ、いずれも英語とコードの1Tトークンでトレーニングされました（C4、CommonCrawl、The Stack、S2ORCのデータを使用）。MPTモデルはすぐに、TIIUAEによってリリースされた7および30Bのモデルに続き、英語とコードの1から1.5Tトークンでトレーニングされました（RefinedWeb、Project Gutemberg、Reddit、StackOverflow、Github、arXiv、Wikipediaなどのソースを使用）。後には巨大な180Bモデルもリリースされました。Falconモデル、データ、トレーニングプロセスは、技術レポートおよび後の研究論文で詳述されました。

以前のモデルはデータについて公開していましたが、それ以降はほとんど情報が提供されず、モデルのトレーニングに使用されたものや再現性についてはわからなくなりました。ただし、リリースされた重みを通じてコミュニティに出発点を提供しています。

✖️,🦙🦙 夏の初めに、SalesforceからX-Gen モデルが登場しました。これは、自然言語とコードの「1.5Tトークン」に対してトレーニングされた7Bパラメータのモデルであり、複数のステップで構築されています。データスケジューリングシステムにより、すべてのデータをモデルに同時に導入するわけではありません。X-Genは、Metaから登場した目立つ新しいLLaMA-2ファミリーに比べて少し地味でした。LLaMA-2は、パブリックで利用可能なソースの「2Tトークン」に対してトレーニングされた7から70Bまでのモデルの範囲であり、許容されるコミュニティライセンスおよび人間の選好（RLHF）による精緻化プロセスが行われました。

🍃,🔟,☀️ 数ヶ月後、新たに設立されたスタートアップMistralから最初のモデルであるMistral-7Bが公開されました。これは、「公開Webから抽出されたデータ」に基づいてトレーニングされたトークンの数は非公開です。2023年の終わりには、Mistralからもう1つの大きなモデル（Mixtral 8x7B）、Deci.AIからは印象的な初のモデルであるDeciLMがリリースされ、upstageからもモデルの統合（SOLAR）が行われました。これらのモデルは、リーダーボードやオープンベンチマークで着実な成果を上げました。

🇨🇳 一方、2023年の目立ったイベントは、中国でトレーニングされ公開されたパフォーマンスの向上とモデルの数でした。2つのバイリンガルの英中モデルシリーズが登場しました：AlibabaのQwen（7から70Bパラメータ、2.4Tトークン）と01-AIのYi（6から34Bパラメータ、3Tトークン）。これらのモデルのパフォーマンスは、オープンLLMリーダーボードやSkill-Mixなどの最も難しいベンチマークでも前のモデルに比べて一歩進んでいました。2023年の後半には、DeepSeek AIからもDeepSeekコーディングモデルが登場し、2Tトークンを元にしたモデルであり、英語と中国語の両方の87％がコードであり、13％が自然言語（主にコードモデル）で構成されています。

どこでもダイアログモデル

2022年と比較して、2023年にリリースされたほとんどの事前学習モデルは、プレトレーニング版とダイアログファインチューニング版の両方を備えていました。これらのアプローチは、モデルをチャット設定に適応させるための手法が2022年以前から開発されていましたが、これらの技術の広く受け入れられるようになったのは2023年で、一般の人々によるチャットモデルの使用の増加と、それらのモデルとのチャットによる手動評価の増加（「バイブチェック」評価）を強調しています。「プリトレーニングモデルをチャット用に適応させるための最もよく知られた手法についてはここで詳しく説明しますが、多くのバリエーションが存在します！

💬 チャットベースのファインチューニングは、チャットデータ（ソーシャルメディアで見つけることができるようなマルチターンの対話データ）がアノテートされたデータであり、そのデータを使ってモデルをファインチューニングするヴァリアントです。トレーニング時と同じ技術を使用します。デコーダトランスフォーマーの場合、モデルに次の単語を一つずつ予測させる方法（オートレグレッシブアプローチと呼ばれます）を使用します。🗣️ インストラクションファインチューニング（IFT）は、同じアプローチを取りますが、インストラクションデータセットを使用します。このデータセットはクエリのようなプロンプトとその答え（必要に応じて追加の入力がある場合もあります）のコレクションを含んでいます。これらのデータセットは、モデルにインストラクションを従う方法を教え、人間またはLLMによって生成されることができます。大規模なモデルアウトプットの合成データセット（モデルの生成物で構成されるデータセット、たとえばGPT-4の生成物であり、ユーザーとモデルとの相互作用に基づくもの）を使用することは、インストラクションやチャットのファインチューニングを達成する方法の一つです。これはしばしば「蒸留」と呼ばれており、優れたパフォーマンスを発揮するモデルから知識を取り出して、より小さなモデルを訓練またはファインチューニングするために行われます。

これらの方法は比較的簡単に実装できます。関連するデータセットを見つけたり生成したりして、トレーニング時と同じ技術でモデルをファインチューニングするだけです。昨年は多くのインストラクションデータセットが公開され、対話のような状況でモデルのパフォーマンスが向上しました。このトピックの詳細については、ここで紹介されているブログをお読みいただくことができます。しかし、改善されたモデルでもまだ人間の期待には追いついていません。

🏅 人間のフィードバックからの強化学習（RLHF）は、モデルの予測を人間が最も好むものに合わせるための具体的なアプローチです（特定の基準に基づく）。これは（年初に）ファインチューニングのための新しい手法でした。与えられたプロンプトから、モデルは複数の可能な回答を生成します。人間はこれらの回答をランキング付けします。そのランキングは、人間の回答の好みを反映するスコアを与えることを学習する「好みモデル」のトレーニングに使用されます。好みモデルは、強化学習を使って言語モデルをファインチューニングするために使用されます。詳細な情報については、このブログ記事、元のRLHF論文、またはRLHFに関するAnthropicの論文をご覧ください。これは比較的高コストな方法（注釈付け/ランキング + 新しいモデルのトレーニング + ファインチューニングは非常に高価です）であり、主に安全目的のためにモデルを調整するために使用されています。この手法のより低コストなバリエーションも開発されており、人間の代わりに高品質なLLMがモデルの出力をランク付けするために使用される「AIフィードバックからの強化学習」（RLAIF）と呼ばれています。

👍 直接優先度最適化（DPO）はRLHFの別のバリエーションであり、別個の好みモデルのトレーニングと使用を必要としません。この方法では、人間またはAIのランキングデータセットが同じように必要ですが、このデータを使用して、モデルの元のポリシー（予測の方法）と最適なポリシー（最もランクの高い回答を予測するもの）の間の差異を見て、直接モデルを更新します。言い換えれば、整列されたモデルは同時に好みモデルでもあり、最適化手順は非常にシンプルになり、最終的なパフォーマンスは同等のものを提供します。

したがって、（主に）民間企業からの小規模なオープンウェイトモデルの流れに戻ると、多くのモデルがファインチューニングされたバージョンと共にリリースされました：MPT-7Bもインストラクトバージョンとチャットバージョンと共にリリースされ、FalconやXGenモデルのインストラクトチューニング版は年末にリリースされ、Llama-2、Qwen、Yiはチャットバージョンと共にリリースされ、DeciLMはインストラクトバージョンでリリースされました。 Llama-2のリリースは、プリトレーニングモデルとファインチューニングモデルの両方で安全性に重点を置いているため、特に注目されました。

コミュニティはどうですか？

チャットモデルと調整済みモデルは通常、新しいモデルリリースの際に直接提供されますが、コミュニティと研究者はそれらを当然とは見なしておらず、これらのベースモデルが提供する豊かなフィールドによって、モデル調整者の広範で健全なコミュニティが花開きました。通常、新しいデータの優れた性能と品質を示すために、新しいデータセットを作成し、それに対してモデルを調整します。

2023年初頭には、インストラクション/チャットの微調整用のいくつかのデータセットがすでにリリースされていました。例えば、人間の好みに関するWebGPTデータセット（OpenAI）、HH-RLHFデータセット（Anthropic）、そしてSummarize（OpenAI）などがこの方向性で先駆的な存在でした。インストラクションのデータセット例は、BigScienceのPublic Pool of Prompts、GoogleのFLAN 1および2、AllenAIのNatural Instructions、さまざまな所属の研究者によって自動的に生成されたインストラクションを生成するためのフレームワークであるSelf Instruct、時には微調整データとして使用されるエキスパート作成のインストラクションベンチマークであるSuperNatural instructions、Tel Aviv大学とMetaによって自動的に生成されるインストラクションデータセットであるUnnatural instructionsなどです。

❄️ 2022/2023年冬：今年の1月、様々な機関の中国の研究者によって、人間とモデルの回答のさまざまな質問に対する対話データセットであるHuman ChatGPT Instruction corpus（HC3）がリリースされました。3月はリリースで満たされました。Stanfordは最初のインストラクションに従うLLaMAモデル（7B）であるAlpacaモデルと、関連するデータセット（LLMを使用して生成された52Kのインストラクション）を公開しました。非営利のオープンソースラボであるLAIONはOpen Instruction Generalist（OIG）データセットを公開しました。これは、データ拡張と既存の他のデータソースからコンパイルされた4300万のインストラクションです。同じ月に、UCバークレーのLMSYS組織はチャットデータ（ShareGPT上でユーザー自身によって公開されたユーザーとChatGPTの対話）であるVicunaもLLaMAの微調整（13B）をリリースしました。また、関連するLLaMA-7Bの微調整もリリースされました。また、Alpacaデータセットを拡張したGuanacoデータセット（より多言語で追加の500Kのエントリを含む）がリリースされました。

🌱 春：4月には、BAIR（Berkeley AI Research lab）が先行データセット（Alpaca、HH-RLHF、WebGPT、ShareGPT）を使用して作成されたチャット調整用のLLaMAモデルKoalaと、15,000件の手動で生成された優れた人的努力であるDollyデータセットを公開しました。5月には、清華大学がUltraChatという、1.5百万の会話を含むデータセットと、そのデータセット上の微調整であるUltraLLaMAをリリースしました。その後、MicrosoftはGPT4を使用して指示を生成するためのGPT4-LLMデータセット/フレームワークを公開し、6月にはMicrosoft Researchが大型モデルの推論トレース（ステップバイステップの推論を説明する）を使用してインストラクションデータセットを構築するための新しい手法であるOrcaを共有しました。それはすぐにコミュニティ（特にAlignementlab.ai）によって再現され、数百万のエントリで構成されるOpen Orcaデータセットが作成され、その後、いくつかのモデル（Llama、Mistralなど）の微調整に使用されました。5月と6月には、Camel-AIが異なるトピック（物理学、生物学、化学など）のいくつかのインストラクションまたはチャットのデータセットをリリースしました（各ドメインで2万以上の例があります）。6月には、モデル生成データを使用してモデルを微調整するAiroborosフレームワークがリリースされ、いくつかのインストラクションデータセットも公開されました。

🌻夏：8月には、中国の非営利団体であるOpenBMBが高性能なチャットチューニングのUltraLM（LLaMAのチューニング版）をリリースし、9月にはそれに関連する好みのデータセットであるUltraFeedback（GPT4による注釈付きの入力のフィードバックデータセット）をリリースしました。夏の間、NousResearchという集団がいくつかのファインチューニング（特にHermesとCapybaraのコレクション）をリリースし、いくつかのプライベートおよびパブリックのインストラクトデータセットを基にしました。9月には、清華大学の学生チームが新しいRLファインチューニング戦略を使用したLLaMAファインチューンのOpenChatをリリースしました。

🍂秋：10月には、Hugging FaceがUltraChatとUltraFeedbackにDPOとAIFを使用したMistralファインチューンの[Zephyr](https://huggingface.co/Hugging FaceH4/zephyr-7b-beta)をリリースし、コミュニティメンバーがウェブから生成されたデータまたはAxolotlで生成されたデータを使用して900KのエントリーをファインチューンしたMistral-7BのOpenHermes 2をリリースしました。Lmsysは、25個のLLMを使用した実生活のユーザーの会話であるLMSYS-Chat-1Mをリリースしました。11月には、OpenBuddyがZephyrファインチューンのマルチターンダイアログOpenBuddy-Zephyrをリリースしました。11月には、NVIDIAが複数の基準に対するプロンプト、関連するモデルの応答、およびそれらの回答の評価を提供するアライメントファインチューニングデータセットの[HelpSteer](/?s=HelpSteer)、マイクロソフトリサーチが新しい合成推論データセットでファインチューニングしたLlama 2の[Orca-2](https://www.voagi.com/how-microsofts-orca2-ai-model-advances-sustainable-ai.html)モデルをリリースしました。12月には、バークレーがOpen-ChatのRLAIFファインチューニングである[Starling](https://www.voagi.com/uc-berkeley-introduces-starling7b-an-open-llm-trained-by-rlaif.html)とそれに関連するデータセットである[Nectar](/?s=Nectar)、比較データの20万エントリーをリリースしました。

今年の開発のすべては、高品質な事前学習済みLLMの使用を通じて新しいデータセットの作成およびコミュニティによってリリースされたすべてのオープンモデルに依存していることが分かります。これにより、分野は飛躍的に前進しています！そして、もしあなたがモデルの名前にこれらの名前のいずれかを見つけたら、それがどこから来たのかがわかるでしょう 🤗

より専門的なデータセット（MetaMathやMathInstructなどの数学問題のチューニングデータセット、Evol-Instruct、数学とコードの指示、CodeAlpacaおよびCodeCapybaraコードの指示）もリリースされましたが、ここでは詳細には触れませんが、これらも特定のタスクでモデルのパフォーマンスを向上させるために使用されています。他の関連データセットの編纂についてはawesome instructions datasetを参照してください。

アクセスの民主化

マージ：極度のカスタマイズ

典型的なオープンソースのスタイルで、コミュニティの特徴の1つは、モデル/データのマージです。各マージ/コミットごとに、使用されたデータ（リリースされたデータセットの多くは他のデータセットの編集物です）とモデルの履歴の追跡がより困難になる場合があります。性能の高いモデルは同様のモデルのチューニングバージョンのチューニングバージョンです（Mistralの「子モデルツリー」を参照）。このサマリーでは、この素晴らしいテクニックについてまだ詳しく話していませんので、最後の言葉を少し割かせていただきましょう。

しかし、モデルのマージとは具体的に何を意味するのでしょうか？

モデルのマージは、異なるモデルの重みを統合し、統一されたモデルにおいて各モデルの強みを（理想的には）組み合わせる方法です。これを行うためのいくつかの技術が存在し、コミュニティフォーラムなどで主に公開されています。これは、実践者、研究者、愛好家のコミュニティ間で世界中で行われている完全に分散された研究の鮮やかな例です。最もシンプルな公開されている方法の1つは、共通のアーキテクチャを共有するモデルのパラメータを平均化することです（例1、例2）。しかし、重み付け平均化（重み付け処理）や、マージする際にモデル間のパラメータの干渉を考慮したり（結合処理）するなど、より複雑なパラメータの組み合わせも存在します。

これらの技術を使用すると、誰でも簡単にモデルの組み合わせを生成できます。また、ほとんどのモデルが現在は同じアーキテクチャのバリエーションであるという事実により、これらの技術は特に容易に行えます。そのため、open LLM leaderboardに提出された一部のモデルには、llama2-zephyr-orca-ultraのような名前が付けられています。この特定の例はおそらくllama2とzephyrモデルのマージであり、orcaとultraのデータセットで微調整されたものです。通常、詳細はHugging Faceハブの各モデルカードに記載されています。

PEFT：指先での個別化

場合によっては、フルモデルをメモリに読み込んで微調整するためのメモリが不足している場合があります。フルモデルを使用せずに微調整することは可能だということを知っていましたか？

これをパラメータ効率のよい微調整（PEFT）と呼びます。この技術では、まず、興味のある事前学習済みモデルのパラメータを凍結し、アダプタと呼ばれる新しいパラメータを追加します。その後、（軽量な）アダプタの重みだけをタスクに対して微調整します。これらの重みは、元のモデルよりもはるかに小さいため、共有する必要があります（そしてベースモデルも）。 PEFTの興味深いアプローチのリストはこちらにあります。

量子化：モデルがどこでも実行される

優れた性能を発揮するモデルは、さまざまな形状やサイズで提供されていますが、それがすべての人にアクセス可能であることを意味するわけではありません！30Bのパラメータを持つモデルは、メモリに読み込むだけでも66G以上のRAMを必要とし、コミュニティの全員がそれを行うのに必要なハードウェアを持っているわけではありません。

そこで、量子化が登場します！量子化は、モデルのパラメータの精度を変更することで、モデルのサイズを縮小する特別な技術です。

それはどういう意味ですか？

コンピュータ内では、数値は特定の精度（float32、float16、int8など）で格納されます。精度は、数値のタイプ（浮動小数点数または整数）と数値の格納に使用されるメモリ量の両方を示しています。たとえば、float32は32ビットで浮動小数点数を格納します。詳細な説明については、このリンクを参照してください。したがって、精度が高いほど、数値が使用する物理メモリの量も増えます。

したがって、精度を下げると、モデルパラメータごとのメモリ使用量が減少し、モデルのサイズも減少します！これはまた、実際の計算の精度も低下させるため、モデルのパフォーマンスも低下することを意味します。ただし、大きなモデルでは、このパフォーマンスの低下は非常に限定的であることがわかりました。

上記の例に戻ると、30Bのパラメータを持つモデルはfloat16では約66GのRAMを必要としますが、8bitではその半分の33G、4bitではさらにその半分の約16Gで済むため、アクセス性が向上します。

異なる「翻訳」スキームが存在し、そのそれぞれに利点と欠点がありますが、1つの正確さから別の正確さに移る方法は多くあります。人気のある手法には、bitsandbytes、GPTQ、およびAWQがあります。 TheBlokeなどの一部のユーザーは、人気のあるモデルをコミュニティで利用可能にするために変換しています。これらはすべて非常に新しい手法であり、さらなる進展を望んでいます。

次は何？

まだ年末ではありません！そして、これらの最後の数か月、数日、数時間は既に驚きをもたらしています。新しいアーキテクチャは、シンプルで効率的なトランスフォーマーを上回るのでしょうか？

新リリースには

エキスパートの混合：
- Mixtral、このモデルは8つのサブモデル（トランスフォーマーデコーダー）からなり、各入力に対してルーターが最適な2つのサブモデルを選択し、その出力を合算します。
いくつかの状態空間モデル（入力を出力にマッピングするモデルで、タスクに応じてRNNまたはCNNとして表現できます）：
- Mamba、選択メカニズムが追加された状態空間モデル
- Striped Hyena、高速畳み込みカーネルを備えた状態空間モデル

これらの新しいアプローチがトランスフォーマーを乗り越えるかどうかはまだ早いですが、状態空間モデルは非常に有望です！

要点

今年は、あらゆる種類の主体（大企業、スタートアップ、研究所）からオープンリリースが増え、これまでにない速度でコミュニティが実験と探索を始める力を持つようになりました。
モデルの発表のオープン性は、年初に非常にオープンであったものが、遅いリリースではトレーニングデータについて何も示さず、再現性がないものになったり、波があります。
オープンモデルは、中国を含む多くの新しい場所から登場し、LLMの競争相手として位置づけています。
パーソナライゼーションの可能性は過去最高に達し、微調整の新戦略（RLHF、アダプター、マージング）が始まったばかりです。
より小さなモデルサイズと量子化のアップグレードにより、LLMはより多くの人々にアクセス可能になりました！
新しいアーキテクチャも現れました- それらはトランスフォーマーを置き換えるでしょうか？

以上です！今年のレビューをお楽しみいただき、何かしら学び、AIの進歩がいかにオープンソースとコミュニティの取り組みに依存しているかについて私と同じような情熱を感じていただければ幸いです！ 🤗

[^1]: ポストエンベディングの正規化は、学習を安定させるためのトリックです。[^2]: ALiBi位置エンベディングは、シーケンス内で遠く離れたトークンがモデルによって接続されるときにペナルティを導入します（通常の位置エンベディングは、トークンの順序と相対位置に関する情報のみを保存します）。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「2023年、オープンLLMの年」

Pretrained Large Language Modelの作り方

2022年 – サイズの競争からデータの競争へ

2023年、オープンリリースの年

小さな大規模言語モデルの台頭

どこでもダイアログモデル

コミュニティはどうですか？

アクセスの民主化

マージ：極度のカスタマイズ

PEFT：指先での個別化

量子化：モデルがどこでも実行される

次は何？

要点

Was this article helpful?

Google AIはPixelLLMを提案します：細かい粒度のローカリゼーションとビジョン・ランゲージのアラインメントが可能なビジョン・ランゲージモデル

安定した拡散：インテリアデザインの芸術をマスターする

人工知能

ピーター・マッキー、Sonarの開発者担当責任者-インタビューシリーズ

「クリス・サレンス氏、CentralReachのCEO - インタビューシリーズ」

アステラソフトウェアのCOO、ジェイ・ミシュラ - インタビューシリーズ

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」