スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介しますこのコーパスは、英語と中国語のテキストから引用されています

「スカイワーク-13B:3.2Tトークン以上のコーパスから学習された大規模言語モデル(LLM)のファミリーを紹介」- このコーパスは、英語と中国語のテキストから引用されています

バイリンガルLLMは、言語の多様性が共通の課題となっている相互につながった世界で、ますます重要になっています。彼らは言語の壁を取り払い、異文化理解を促進し、異なる言語を話す人々にとって情報やサービスへのアクセスを向上させる潜在能力を持っています。バイリンガルLLMは、高品質の機械翻訳サービスを提供するために使用することができます。彼らはテキストを一つの言語から別の言語に翻訳し、異なる文化や地域間でのコミュニケーションを円滑にし、言語の壁を取り払うのに役立ちます。

これらのモデルの需要の増加に伴い、商業化のトレンドと透明性の必要性が増しています。多くの組織はモデルのチェックポイントを公に利用可能にし、モデルの重要な情報を公開しないという傾向があります。AIの透明性を回復するために、昆仑科技の研究者たちは英語と中国語のテキストから抽出された32兆トークン以上を使用してトレーニングされた大規模な言語モデルのファミリーを構築しました。それは「Skywork-13B」と呼ばれています。

Skywork-13Bファミリーには、Skywork-13B-BaseとSkywork-13BChatが含まれています。ベースは最新の中国語言語モデリング能力を持つ強力な基礎モデルであり、チャットは会話に最適化された調整済みバージョンです。他の組織とは異なり、彼らはトレーニングプロセスとデータ構成に関する詳細な情報を公開しています。

彼らはまた、トレーニング中にモデルの能力がどのように発展するかを理解するための貴重なリソースである中間チェックポイントも公開しました。彼らはこの開示によって、他の研究者が彼らのユースケースにチェックポイントを活用できると信じています。彼らはまた、トレーニング段階でのドメイン内データの使用レベルを検出する新しい方法も開発しました。

チームはSkywork-13B基盤モデルをSkyPileでトレーニングしました。それらはSkyPile全体ではなく、2つのステージのトレーニングアプローチを追いました。最初のステージでは、SkyPile-Mainでモデルをゼロからトレーニングする主要な事前トレーニングフェーズを構成します。 2番目のステージでは、SkyPile-STEMでSTEM関連のドメイン知識と問題解決能力を最適化するために継続的な事前トレーニングを行います。

モデルのトレーニング中に、チームは多数のバリデーションセットでの言語モデリング損失を調べました。それぞれが中国語と英語のコード、学術論文、ソーシャルメディアの投稿、およびウェブテキストによる異なるデータ分布を反映する独自のバリデーションセットを作成しました。彼らは、このアプローチに従うことが、構成の容易さ、計算の簡素さ、トレーニングの進行に対する高い感度、およびモデルに対する無関心さをもたらすと述べています。

Skywork-13Bモデルは、全体的に最も優れたパフォーマンスを示しています。平均的なPerplexityスコアが最も低い9.42を獲得しました。また、テック、映画、政府、および金融のドメインで最も優れたパフォーマンスを発揮しています。それは同じサイズのモデルのパフォーマンスを超えるだけでなく、InternLM-20BやAquila2-34Bなどのはるかに大きなモデルを大きく上回る優れた成績を収めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「目標をより早く達成するための25のChatGPTプロンプト」

「自分の目標を達成することに苦しんでいると感じたときはいつでも、この記事を読んでください... 効果があります」

AIニュース

「GoogleのAI Red Team:AIを安全にするための倫理的なハッカー」

先月、私たちはSecure AI Framework(SAIF)を紹介しましたこれは、AIシステムへのリスクに対処し、技術のセキュリティ基準を...

AI研究

ペンシルベニア大学の研究者たちは、腎臓のマッチングを改善し、移植片の失敗リスクを減らすための機械学習戦略の開発を行っています

AIは、遺伝子の特定の変異を分析することにより、腎移植のリスクを最小化することで、人々に希望の光をもたらしています。腎...

データサイエンス

「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する 効果的なプロジェクト管理のための必須ツール」

「機械学習またはデータサイエンスのプロジェクトは非常に大規模であり、多くの種類のファイルや多様なアーキテクチャを含ん...

人工知能

「ジェンAI愛好家が読むべき5冊の本」

イントロダクション 技術がますます進化する中、人工知能(AI)の領域は拡大するだけでなく、ジェネラティブAIという様々なサ...

機械学習

「Azure Lightweight Generative AI Landing Zone」

「Azure AI サービスに基づくランディングゾーンの構築に関する完全ガイドでは、AI プロダクトを紹介し、AI の活用により利益...