『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

『LLM360についてご紹介します:初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html

オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。

Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。

LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。

LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。

この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。

研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。

LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ノイズ除去オートエンコーダの公開

はじめに デノイジングオートエンコーダーは、ノイズの混入したデータまたはノイズのあるデータから元のデータを再構築するこ...

人工知能

「信じられないほどの新しい中間補間機能(領域の変化)」

「この機能により、グラフィックデザインの経験がないがグラフィックを作成したいという人にとって、Midjourneyは100倍も価値...

機械学習

CLIP基礎モデル

この記事では、CLIP(対照的な言語画像事前学習)の背後にある論文を詳しく解説しますキーコンセプトを抽出し、わかりやすく...

AIニュース

「OpenAIのDevDay 2023がAIの発展とカスタマイズの新時代を公開」

OpenAIのDevDay 2023イベントで、人工知能の未来が魅力的な展開を見せるという画期的な発表シリーズが行われました。OpenAIは...

データサイエンス

生成AI:シームレスなデータ転送のための倫理的かつ創造的なイノベーション

この記事は、データエンリッチメントにおける生成AIの変革的な影響について掘り下げ、より正確な洞察と意思決定を促進します

人工知能

「Unblock Your Software Engineers With Unblocked(アンブロックドでソフトウェアエンジニアを活用しましょう)」

「AIは、私たちのフィールドでますます重要な役割を果たしており、私たち開発者の生産性を大きく向上させる能力を持っていま...