「Lineが『japanese-large-lm』をオープンソース化:36億パラメータを持つ日本語言語モデル」

Line opensources 'japanese-large-lm' Japanese language model with 3.6 billion parameters

2020年11月以来、LINEは日本語に特化した先進的な大規模言語モデルの研究開発に取り組んできました。この旅の重要なマイルストーンとして、LINEのMassive LM開発ユニットは、日本語の言語モデル「Japanese-large-lm」をオープンソースソフトウェア(OSS)として公開しました。このリリースは、先端の言語モデルを活用しようとする研究コミュニティとビジネスに大きな影響を与えることが期待されています。

これらの言語モデルには、36億(3.6B)パラメータモデルと17億(1.7B)パラメータモデルの2つのバリエーションがあり、それぞれ3.6Bモデルと1.7Bモデルと呼ばれています。これらのモデルを公開し、言語モデルの構築に関する包括的な知識を共有することで、LINEは自社のアプローチの複雑さに一瞥を提供し、この分野の進歩に貢献することを目指しています。

1.7Bモデルと3.6Bモデルは、HuggingFace Hub(1.7Bモデル、3.6Bモデル)を介してアクセスでき、人気のあるtransformersライブラリを通じてさまざまなプロジェクトにシームレスに統合することができます。これらのモデルをApache License 2.0の下でライセンスすることで、研究者や商業企業など、さまざまなユーザーが多様なアプリケーションでそれらの機能を活用することができます。

高性能な言語モデルを開発するための基盤となる重要な要素は、広範で高品質なトレーニングデータセットの活用です。LINEは、これを達成するために、独自の日本語ウェブコーパスを活用して多様なテキストデータを充実させました。ただし、ウェブから派生するコンテンツの課題は、ソースコードや非日本語の文などのノイズが含まれることです。LINEは、HojiChar OSSライブラリを活用した細心のフィルタリングプロセスを採用することで、大規模で高品質なデータセットを取り出し、モデルの堅牢性の基盤を形成しました。

モデルのトレーニング効率も重要な考慮事項であり、LINEは3DパラレリズムやActivation Checkpointingなどの革新的なテクニックを導入することで、効率的なデータの吸収を実現し、計算能力の限界を押し上げました。驚くべきことに、1.7BモデルはA100 80GB GPU上でわずか4000時間のGPUを使用して開発されました。これは彼らの学習アプローチの効果を示すものです。

特筆すべきは、この日本語言語モデルの開発軌跡がHyperCLOVAとは異なることです。LINEの専任のMassive LM開発ユニットによって厳格に監視された独自の開発ラインに沿って構築されたこのモデルは、日本語のための優れた事前学習モデルを作り上げるLINEの取り組みを示しています。彼らの総合的な目標は、大規模言語モデルの幅広い経験から得られた洞察と教訓を統合することです。

LINEは、モデルの効果を評価するためにパープレキシティスコア(PPL)と質問応答および読解タスクの精度率を調査しました。PPLはモデルの予測能力を示し、精度率は具体的なパフォーマンス指標を提供します。その結果、LINEのモデルは、さまざまなタスクで競争力のあるパフォーマンスを示し、分野で確立されたモデルと肩を並べるものでした。

彼らの成功の基盤となったのは、効果的な大規模言語モデルのトレーニングに関する一連の貴重なヒントです。これには、微調整の考慮事項、ハイパーパラメータAdam’s beta2、最適な学習率、適切な学習率スケジューラの適用などが含まれます。LINEはこれらの技術的な複雑さに深入りすることで、広範なコミュニティに利益をもたらす力強いモデルを開発し、知見を共有しています。

まとめると、LINEが1.7Bモデルと3.6Bモデルの日本語言語モデルを公開したことは、自然言語処理の重要な進歩です。彼らは将来の調整モデルの公開に対する取り組みを強調することで、言語モデルの機能を向上させることへの彼らの取り組みを示しています。LINEが進歩を続ける中で、グローバルコミュニティは彼らの持続的な貢献の影響を熱望しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「Amazon SageMakerでのRayを使用した効果的な負荷分散」

以前の記事(たとえば、ここ)では、DNNトレーニングワークロードのプロファイリングとパフォーマンスの最適化の重要性につい...

データサイエンス

「LLMの評価にLLMを使用する」

ChatGPTには何百万もの異なる方法で行動するように頼むことができます栄養士や言語講師、医者などとしての役割も果たしますOp...

人工知能

プロンプトエンジニアリング:AIを騙して問題を解決する方法

「これは、実践的な大規模言語モデル(LLM)の使用に関するシリーズの第4回目の記事ですここでは、プロンプトエンジニアリン...

機械学習

ビジネスにおけるAIの潜在的なリスクの理解と軽減

「この技術を導入する際に遭遇する可能性のあるAIのリスクを学びましょうビジネスオーナーとして、そのようなリスクを避ける...

データサイエンス

「CHATGPTの内部機能について:AIに関する自分自身の疑問に対するすべての回答」

私たちは皆、ChatGPTが質問に答えたり、命令を実行したりするユーザーフレンドリーなAIチャットボットであることを知っていま...