オレゴン大学とアドビの研究者がCulturaXを紹介します:大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセット
オレゴン大学とアドビの研究者がCulturaXを紹介しますThis sentence means Researchers from the University of Oregon and Adobe introduce CulturaX. 大規模言語モデル(LLM)の開発に適した167の言語で6.3Tのトークンを持つ多言語データセットThis sentence means A multilingual dataset with 6.3T tokens in 167 languages suitable for the development of large-scale language models (LLM).
大規模言語モデル(LLM)は、幅広いタスクで最先端のパフォーマンスを劇的に向上させ、新たな新興スキルを明らかにすることにより、NLPの研究と応用に大きな影響を与えています。入力テキストを表現ベクトルにエンコードするためには、エンコーダのみモデルが調査されてきました。テキストを生成するためには、デコーダのみモデルが研究されてきました。また、シーケンスからシーケンスへの生成を実現するためには、エンコーダ・デコーダモデルが研究されてきました。最大のパフォーマンスを実現するために必要なモデルサイズとトレーニングデータセットの指数関数的な成長は、LLMの驚異的な能力の主要な要因となっています。例えば、BERTモデルは数億パラメータしか含まれていませんでしたが、最新のGPTベースのモデルでは数千億パラメータを含むようになりました。
巨大なモデルサイズと膨大なトレーニングデータセットは、驚異的な学習能力を持つ大規模言語モデル(LLM)の進歩の主要な要素です。NLPの発展に伴い、一般の人々がさらなる研究と実用のためにLLMを利用できるようになってきました。ただし、これらのLLMのためのトレーニングデータセットは通常部分的にしか提供されておらず、特に最新の最先端モデルに対してはさらにその傾向が強いです。LLMのための高品質なトレーニングデータを作成するには、広範なデータのクリーニングと重複排除が必要です。このため、トレーニングデータに関するより多くのオープンさが求められることで、ホールシネーションやバイアスの研究の結果の再現や進展が妨げられています。これらの困難は、多言語学習のシナリオでは通常、十分な多言語テキストコレクションの収集とクリーニングが行われていないことによりさらに複雑化します。その結果、言語によるLLMのトレーニングに使用できる良質なオープンソースのデータセットは存在しません。この問題を解決するために、オレゴン大学とアドビリサーチの学術研究者の共同作業によって、6.3兆トークン、167ヶ国語で構成される巨大な多言語データセット「CulturaX」が開発されました。モデルトレーニングの最高品質を確保するために、データセットは厳格なパイプラインを通じてクリーニングと重複排除の数多くのステップを経ています。これらのプロセスには、データセット内の言語の特定、URLを使用したデータセットのフィルタリング、メトリクスを使用したデータセットのクリーニング、ドキュメントの改善、データの重複排除が含まれます。
CulturaXは、言語ごとに高品質なトレーニングLLM用に徹底的にクリーニングと重複排除が行われた、最大のオープンソースの多言語データセットです。
主な特徴
- CulturaXは、LLMとNLPの応用に徹底的にクリーニングと重複排除が行われた、今までで最も大規模なオープンソースの多言語データセットです。
- CulturaXは、多言語のオープンソースで大規模なデータセットを提供し、即座に使用可能な高品質なデータを提供することで、現在のデータセットに関連する多くの問題を解決します。
- 多言語のオープンソースのテキストデータが含まれるmC4などのデータセットは存在しますが、その品質とスケールは、特にGPTなどの生成モデルに効率的にLLMをトレーニングするための要件を満たしていません。例えば、前述のように、mC4やOSCARはドキュメントレベルの曖昧な重複排除を提供していません。mC4の言語認識にはcld3の結果が劣っており、これも欠点です。CC100には2018年以降のデータが含まれていますが、BigScience ROOTSは46ヶ国語のデータのサンプリングのみを提供しています。
HuggingFaceのCulturaXの完全な公開リリースは、多言語のLLMとその応用の研究をさらに進めるのに役立ちます。詳細はこちらをご覧ください:https://huggingface.co/datasets/uonlp/CulturaX
167言語のテキストデータを持つ新しい多言語データセットCulturaXをぜひご覧ください。このデータセットは徹底的なワークフローによってクリーニングされ、重複が削除された結果、6.3兆トークンが含まれています。巨大で高品質なデータセットであるCulturaXは、さまざまな言語で効果的なLLMを容易にトレーニングするために活用することができます。この情報は一般に無料で利用でき、研究者たちはさらなる言語習得の研究と実用的な応用の促進に役立つことを願っています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles