スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

「スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介」- このコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語の壁を取り払い、異文化理解を促進し、異なる言語を話す人々にとって情報やサービスへのアクセスを向上させる潜在能力を持っています。バイリンガルLLMは、高品質の機械翻訳サービスを提供するために使用することができます。彼らはテキストを一つの言語から別の言語に翻訳し、異なる文化や地域間でのコミュニケーションを円滑にし、言語の壁を取り払うのに役立ちます。

これらのモデルの需要の増加に伴い、商業化のトレンドと透明性の必要性が増しています。多くの組織はモデルのチェックポイントを公に利用可能にし、モデルの重要な情報を公開しないという傾向があります。AIの透明性を回復するために、昆仑科技の研究者たちは英語と中国語のテキストから抽出された32兆トークン以上を使用してトレーニングされた大規模な言語モデルのファミリーを構築しました。それは「Skywork-13B」と呼ばれています。

Skywork-13Bファミリーには、Skywork-13B-BaseとSkywork-13BChatが含まれています。ベースは最新の中国語言語モデリング能力を持つ強力な基礎モデルであり、チャットは会話に最適化された調整済みバージョンです。他の組織とは異なり、彼らはトレーニングプロセスとデータ構成に関する詳細な情報を公開しています。

彼らはまた、トレーニング中にモデルの能力がどのように発展するかを理解するための貴重なリソースである中間チェックポイントも公開しました。彼らはこの開示によって、他の研究者が彼らのユースケースにチェックポイントを活用できると信じています。彼らはまた、トレーニング段階でのドメイン内データの使用レベルを検出する新しい方法も開発しました。

チームはSkywork-13B基盤モデルをSkyPileでトレーニングしました。それらはSkyPile全体ではなく、2つのステージのトレーニングアプローチを追いました。最初のステージでは、SkyPile-Mainでモデルをゼロからトレーニングする主要な事前トレーニングフェーズを構成します。 2番目のステージでは、SkyPile-STEMでSTEM関連のドメイン知識と問題解決能力を最適化するために継続的な事前トレーニングを行います。

モデルのトレーニング中に、チームは多数のバリデーションセットでの言語モデリング損失を調べました。それぞれが中国語と英語のコード、学術論文、ソーシャルメディアの投稿、およびウェブテキストによる異なるデータ分布を反映する独自のバリデーションセットを作成しました。彼らは、このアプローチに従うことが、構成の容易さ、計算の簡素さ、トレーニングの進行に対する高い感度、およびモデルに対する無関心さをもたらすと述べています。

Skywork-13Bモデルは、全体的に最も優れたパフォーマンスを示しています。平均的なPerplexityスコアが最も低い9.42を獲得しました。また、テック、映画、政府、および金融のドメインで最も優れたパフォーマンスを発揮しています。それは同じサイズのモデルのパフォーマンスを超えるだけでなく、InternLM-20BやAquila2-34Bなどのはるかに大きなモデルを大きく上回る優れた成績を収めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAIニュースレターは、あなたが必要とするすべてです#62

今週は、METAのコーディングモデルの開発とOpenAIの新しいファインチューニング機能の進展を見てきましたMetaは、Code LLaMA...

機械学習

このAI論文は、概念関連伝播(CRP)を用いて、「どこ」や「何」を解き明かすための深層学習モデルの理解に新たなアプローチを提案しています

“`html 機械学習と人工知能の分野は非常に重要になっています。日々進歩している新たな技術があります。この領域はあら...

データサイエンス

「伝統的な機械学習はまだ重要ですか?」

伝統的な機械学習が生成モダルAIの時代でも不可欠である理由を探求し、その強み、弱点、およびさまざまな産業における重要な...

機械学習

「ビジュアルAIがカナダ最大かつ最も賑やかな空港で飛躍する」

カナダのオンタリオ州にあるトロントピアソン国際空港は、年間約5000万人の旅客にサービスを提供する国内最大かつ最も混雑し...

機械学習

「AIの革命:WatsonXの力を明らかにする」

「ワトソンX」という革命的なAI技術に出会ってくださいそれは、量子コンピューティング、高度な機械学習、自然言語処理が融合...

人工知能

5つの最高のChatGPT SEOプラグイン

SEOの専門家たちは、ChatGPTプラグインがGoogleのランキングを上げるのを助けるすばらしいツールであることに気づき始めています