ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル

ディープシーク、中国からの最新ChatGPTのライバル「ディープシーク-67Bモデル」をオープンソース化

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル(LLM)の新時代を切り拓いています。 DeepSeek LLM 7B/67B BaseとDeepSeek LLM 7B/67B Chat からなるこれらのオープンソースモデルは、言語理解と多目的応用において大きな進歩を表しています。

DeepSeekのLLMの特色の一つは、67B BaseバージョンがLlama2 70B Baseに比べて優れた性能を発揮していることです。理論推論、コーディング、数学、中国語の理解などの分野で優れた能力を示します。

DeepSeek LLMのこの質的な飛躍は、幅広いアプリケーションでのその能力を示しています。特に注目すべきは、DeepSeek Chatが、類似のサイズのモデルをしのぐ、人間の評価基準の73.78%の合格率を達成したことです。また、調整なしでGSM8K数学データセットで84.1%をスコアリングするという卓越した力を示しました。

DeepSeek AIは、モデルの7億パラメータバージョンと67億パラメータバージョンを含む、ベースおよび専門用途のChatバリアントをオープンソース化することで、広範なAI研究と商業アプリケーションの促進を目指しています。

バイアスのない綿密なパフォーマンス評価を保証するために、DeepSeek AIは、ハンガリー国立高校試験やGoogleの指示に従った評価データセットなどの新しい問題集を設計しました。これらの評価は、モデルが以前に見たことのない試験やタスクを効果的に処理する能力を効果的に示しました。

スタートアップは、知的財産権を尊重しながら、多様性と独自性を高めることに焦点を当てた緻密なデータ収集とトレーニングプロセスについての洞察を提供しました。マルチステップのパイプラインでは、品質の高いテキスト、数学の式、コード、文学作品、さまざまなデータ型を選別し、有害な内容や重複したコンテンツを除外するためのフィルタを実装しました。

DeepSeekの言語モデルは、LLaMAに類似したアーキテクチャで設計され、厳格な事前トレーニングを受けました。7BモデルではMulti-Head Attentionを、67BモデルではGrouped-Query Attentionを利用しました。トレーニング計画では、大規模なバッチサイズとマルチステップの学習率スケジュールを使用し、堅牢で効率的な学習能力を確保しました。

これら最新のオープンソースLLMのリリースを主導することで、DeepSeek AIは言語理解とAIのアクセシビリティにおける重要なマイルストーンを築き、フィールドでのイノベーションとより広範な応用を促進しています。

この記事は、DeepSeek Open-Sources DeepSeek-67Bモデル:中国からの最新のChatGPTライバルに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取...

機械学習

Mozilla Common Voiceでの音声言語認識-第II部:モデル

これはMozilla Common Voiceデータセットに基づく音声認識に関する2番目の記事です最初の部分ではデータの選択と最適な埋め込...

機械学習

「大規模なモデルの時代のプログラマー」

大規模モデルは開発者のプロセスを完全に変えましたこれを読んだ後、AIGCが開発効率を向上させる方法について、まったく新し...

機械学習

「人物再識別入門」

「人物再識別」は、異なる非重複カメラビューに現れる個人を識別するプロセスですこのプロセスは、顔認識に頼らずに、服装を...

データサイエンス

LangChain:メモリ容量でパフォーマンスを向上させる

私は以前にLangChainに関する記事をすでに公開しており、ライブラリーとその機能を紹介しました今回は、インテリジェントチャ...

機械学習

「Nvidiaが革命的なAIチップを発表し、生成型AIアプリケーションを急速に強化する」

技術が常に限界を押し上げる時代において、Nvidiaは再びその名を刻みました。同社はGH200 Grace Hopper Superchipを発売しま...