『LLM360をご紹介します:最初の完全オープンソースで透明な大規模言語モデル(LLM)』

『LLM360についてご紹介します:初の完全オープンソースで透明な大規模言語モデル(LLM)』

“`html

オープンソースの大規模言語モデル(LLM)であるLLaMA、Falcon、Mistralなどは、AIのプロフェッショナルや学者向けにさまざまな選択肢を提供しています。しかし、これらのLLMの大部分は、エンドモデルの重みや推論スクリプトなどの一部のコンポーネントだけが利用可能であり、技術的なドキュメントでは、一般的な設計の側面や基本的なメトリックに焦点を絞った内容が多いです。このアプローチでは、LLMのトレーニング手法の明確性が低下し、チームがトレーニング手順のさまざまな側面を継続的に解明するための努力が重複してしまいます。

Petuum、MBZUAI、USC、CMU、UIUC、UCSDの研究者チームが、LLM360を導入しました。これは、エンドツーエンドのLLMトレーニングプロセスを透明で再現可能にすることにより、オープンかつ協力的なAIの研究をサポートするイニシアチブです。LLM360は、トレーニングコードとデータ、モデルのチェックポイント、中間結果などのすべてをコミュニティに提供することを主張する、完全なオープンソースのLLMです。

LLM360に最も近いプロジェクトはPythiaであり、LLMの完全な再現性を目指しています。GPT-JやGPT-NeoXなどのEleutherAIモデルは、トレーニングコード、データセット、中間モデルのチェックポイントと共にリリースされており、オープンソースのトレーニングコードの価値を示しています。INCITE、MPT、OpenLLaMAは、トレーニングコードとトレーニングデータセットがリリースされ、RedPajamaも中間モデルのチェックポイントを公開しています。

LLM360は、AMBERとCRYSTALCODERの2つの7BパラメータLLMをリリースし、そのトレーニングコード、データ、中間チェックポイント、分析も提供します。事前トレーニングデータセットの詳細、データの前処理、フォーマット、データミキシングの比率、LLMモデルのアーキテクチャの詳細については、研究で詳しく説明されています。

この研究では、以前の研究で導入された記憶スコアの使用と、メトリック、データチャンク、チェックポイントの公開により、研究者が対応関係を容易に見つけることができるようになることを示しています。研究ではまた、LLMが事前にトレーニングされたデータを削除することの重要性や、データのフィルタリング、処理、トレーニング順序の詳細についても強調しています。

研究では、ARC、HellaSwag、MMLU、TruthfulQAの4つのデータセットについてのベンチマーク結果が示され、モデルの事前トレーニング中のパフォーマンスが示されています。HellaSwagとARCの評価スコアはトレーニング中に単調に増加し、TruthfulQAのスコアは減少します。MMLUのスコアは最初に減少し、その後成長します。AMBERのパフォーマンスはMMLUなどのスコアで競争力があるものの、ARCでは遅れています。ファインチューニングされたAMBERモデルは、他の類似モデルと比較して強力なパフォーマンスを示します。

LLM360は、オープンソースLLMの完全かつ包括的なイニシアチブであり、オープンソースのLLM事前トレーニングコミュニティ内での透明性を推進するものです。この研究では、AMBERとCRYSTALCODERの2つの7B LLMをトレーニングコード、データ、中間モデルのチェックポイント、分析と共にリリースしています。研究では、チェックポイント、データチャンク、評価結果を公開することにより、包括的な分析と再現性を可能にするため、すべての角度からLLMをオープンソース化することの重要性を強調しています。

“`

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

「OpenAIがGPT-4を使用してスマートなコンテンツモデレーションを行う方法」

人工知能のパイオニアであるOpenAIは、GPT-4モデルのパワーをコンテンツのモデレーションに活用する革新的な手法を発表しまし...

機械学習

「Gradio-liteと出会う:Pyodideを使用してブラウザでインタラクティブな機械学習ベースのライブラリ(Gradio)を向上させるJavaScriptライブラリ」

Gradioは、機械学習モデルのユーザーインターフェースの作成を簡略化するオープンソースのPythonライブラリです。開発者やデ...

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

AI研究

ヴァンダービルト大学とUCデービスからの研究者は、学習および再構築フェーズの両方でメモリ効率の良いPRANCというディープラーニングフレームワークを紹介しました

ヴァンダービルト大学とカリフォルニア大学デービス校の研究者は、PRANCと呼ばれる枠組みを導入しました。この枠組みは、重み...

人工知能

「世界中のさらに多くの人々に生成型AIを検索にもたらす」

「我々は、より多くの人々にSearch(SGE)での生成的AI機能を提供し、Search Labsをインドと日本で利用可能にしています」

機械学習

「ゲームを一段と盛り上げる:スタートアップのスポーツビジョンAIが世界中にアスレチックを放送」

Pixellotは、ビジョンAIによって得点を稼いでおり、各国の視聴者にリアルタイムのスポーツ放送と分析を提供する組織にとって...