スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

「スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介」- このコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語の壁を取り払い、異文化理解を促進し、異なる言語を話す人々にとって情報やサービスへのアクセスを向上させる潜在能力を持っています。バイリンガルLLMは、高品質の機械翻訳サービスを提供するために使用することができます。彼らはテキストを一つの言語から別の言語に翻訳し、異なる文化や地域間でのコミュニケーションを円滑にし、言語の壁を取り払うのに役立ちます。

これらのモデルの需要の増加に伴い、商業化のトレンドと透明性の必要性が増しています。多くの組織はモデルのチェックポイントを公に利用可能にし、モデルの重要な情報を公開しないという傾向があります。AIの透明性を回復するために、昆仑科技の研究者たちは英語と中国語のテキストから抽出された32兆トークン以上を使用してトレーニングされた大規模な言語モデルのファミリーを構築しました。それは「Skywork-13B」と呼ばれています。

Skywork-13Bファミリーには、Skywork-13B-BaseとSkywork-13BChatが含まれています。ベースは最新の中国語言語モデリング能力を持つ強力な基礎モデルであり、チャットは会話に最適化された調整済みバージョンです。他の組織とは異なり、彼らはトレーニングプロセスとデータ構成に関する詳細な情報を公開しています。

彼らはまた、トレーニング中にモデルの能力がどのように発展するかを理解するための貴重なリソースである中間チェックポイントも公開しました。彼らはこの開示によって、他の研究者が彼らのユースケースにチェックポイントを活用できると信じています。彼らはまた、トレーニング段階でのドメイン内データの使用レベルを検出する新しい方法も開発しました。

チームはSkywork-13B基盤モデルをSkyPileでトレーニングしました。それらはSkyPile全体ではなく、2つのステージのトレーニングアプローチを追いました。最初のステージでは、SkyPile-Mainでモデルをゼロからトレーニングする主要な事前トレーニングフェーズを構成します。 2番目のステージでは、SkyPile-STEMでSTEM関連のドメイン知識と問題解決能力を最適化するために継続的な事前トレーニングを行います。

モデルのトレーニング中に、チームは多数のバリデーションセットでの言語モデリング損失を調べました。それぞれが中国語と英語のコード、学術論文、ソーシャルメディアの投稿、およびウェブテキストによる異なるデータ分布を反映する独自のバリデーションセットを作成しました。彼らは、このアプローチに従うことが、構成の容易さ、計算の簡素さ、トレーニングの進行に対する高い感度、およびモデルに対する無関心さをもたらすと述べています。

Skywork-13Bモデルは、全体的に最も優れたパフォーマンスを示しています。平均的なPerplexityスコアが最も低い9.42を獲得しました。また、テック、映画、政府、および金融のドメインで最も優れたパフォーマンスを発揮しています。それは同じサイズのモデルのパフォーマンスを超えるだけでなく、InternLM-20BやAquila2-34Bなどのはるかに大きなモデルを大きく上回る優れた成績を収めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...

AIニュース

「HeyGenを使ってリアルなAI生成アバターを作る方法」

このAIによるアバターツールは非常に先進的であり、人々はそれが本物か偽物か判断できません

人工知能

「AIがまだすぐには置き換えられない8つの仕事」

皆がAIが代替する仕事について話していますが、私たちはコインの裏側、つまりAIがまもなく置き換えないであろう仕事に目を向...

AI研究

ソウル国立大学の研究者たちは、効率的かつ適応性のあるロボット制御のための革新的なAI手法であるロコモーション・アクション・マニピュレーション(LAMA)を紹介しています

ソウル国立大学の研究者は、ロボット工学における効率的かつ適応性のあるロボットの制御という基本的な課題に取り組んでいま...

AI研究

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

現在、科学と社会が直面している主な問題の一つは天気予報です。正確な天気予報は、自然災害や極端な天候事象に対処し、回復...

AIニュース

「AIにおけるアメリカのリーダシップの確かな基盤を築く方法」

Googleが報告書を共有します:AIにおけるアメリカのリーダーシップのための安全な基盤の構築' (Google ga hōkokusho wo kyōyū...