ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル

ディープシーク、中国からの最新ChatGPTのライバル「ディープシーク-67Bモデル」をオープンソース化

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル(LLM)の新時代を切り拓いています。 DeepSeek LLM 7B/67B BaseとDeepSeek LLM 7B/67B Chat からなるこれらのオープンソースモデルは、言語理解と多目的応用において大きな進歩を表しています。

DeepSeekのLLMの特色の一つは、67B BaseバージョンがLlama2 70B Baseに比べて優れた性能を発揮していることです。理論推論、コーディング、数学、中国語の理解などの分野で優れた能力を示します。

DeepSeek LLMのこの質的な飛躍は、幅広いアプリケーションでのその能力を示しています。特に注目すべきは、DeepSeek Chatが、類似のサイズのモデルをしのぐ、人間の評価基準の73.78%の合格率を達成したことです。また、調整なしでGSM8K数学データセットで84.1%をスコアリングするという卓越した力を示しました。

DeepSeek AIは、モデルの7億パラメータバージョンと67億パラメータバージョンを含む、ベースおよび専門用途のChatバリアントをオープンソース化することで、広範なAI研究と商業アプリケーションの促進を目指しています。

バイアスのない綿密なパフォーマンス評価を保証するために、DeepSeek AIは、ハンガリー国立高校試験やGoogleの指示に従った評価データセットなどの新しい問題集を設計しました。これらの評価は、モデルが以前に見たことのない試験やタスクを効果的に処理する能力を効果的に示しました。

スタートアップは、知的財産権を尊重しながら、多様性と独自性を高めることに焦点を当てた緻密なデータ収集とトレーニングプロセスについての洞察を提供しました。マルチステップのパイプラインでは、品質の高いテキスト、数学の式、コード、文学作品、さまざまなデータ型を選別し、有害な内容や重複したコンテンツを除外するためのフィルタを実装しました。

DeepSeekの言語モデルは、LLaMAに類似したアーキテクチャで設計され、厳格な事前トレーニングを受けました。7BモデルではMulti-Head Attentionを、67BモデルではGrouped-Query Attentionを利用しました。トレーニング計画では、大規模なバッチサイズとマルチステップの学習率スケジュールを使用し、堅牢で効率的な学習能力を確保しました。

これら最新のオープンソースLLMのリリースを主導することで、DeepSeek AIは言語理解とAIのアクセシビリティにおける重要なマイルストーンを築き、フィールドでのイノベーションとより広範な応用を促進しています。

この記事は、DeepSeek Open-Sources DeepSeek-67Bモデル:中国からの最新のChatGPTライバルに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「ゲーミングからAIへ:NvidiaのAI革命における重要な役割」

Nvidiaは現在、Facebook、Tesla、Netflixよりも価値が高いですロイターによると、株価は過去8ヶ月で3倍になりましたしかし、...

人工知能

「C# で GPT(一般目的テンプレート)を拡張しましょう」

この記事では、OpenAIを使用してGPTを作成し、AINIRO.IO Magic Cloudを使用して独自のC#コードで拡張する方法を示しています

データサイエンス

人工知能は人間を置き換えるのか?

はじめに 皆さんはご存知のとおり、AIは飛躍的な進歩を遂げ、科学者や一般の人々の想像をとらえています。ニュースやソーシャ...

AI研究

アリババAI研究所が提案する「Composer」は、数十億の(テキスト、画像)ペアで訓練された、巨大な(50億パラメータ)コントロール可能な拡散モデルです

現在、テキストベースの生成画像モデルは、多様な写真のような画像を生成することができるようになりました。最近の多くの取...

機械学習

バイオメディカルインサイトのための生成AI

OpenBIOMLとBIO GPTを利用したGenerative AIを探求し、Large Language Models (LLMs)を使用して疾患の理解と治療に新たなアプ...

機械学習

この人工知能論文は、画像認識における差分プライバシーの高度な手法を提案し、より高い精度をもたらします

機械学習は、近年のパフォーマンスにより、さまざまな領域で大幅に増加しました。現代のコンピュータの計算能力とグラフィッ...