ディープシークは、ディープシーク-67Bモデルをオープンソース化しました:中国からの最新のChatGPTのライバル

ディープシーク、中国からの最新ChatGPTのライバル「ディープシーク-67Bモデル」をオープンソース化

中国のAIスタートアップ、DeepSeek AIは、DeepSeek LLMファミリーのデビューによって、大規模な言語モデル(LLM)の新時代を切り拓いています。 DeepSeek LLM 7B/67B BaseとDeepSeek LLM 7B/67B Chat からなるこれらのオープンソースモデルは、言語理解と多目的応用において大きな進歩を表しています。

DeepSeekのLLMの特色の一つは、67B BaseバージョンがLlama2 70B Baseに比べて優れた性能を発揮していることです。理論推論、コーディング、数学、中国語の理解などの分野で優れた能力を示します。

DeepSeek LLMのこの質的な飛躍は、幅広いアプリケーションでのその能力を示しています。特に注目すべきは、DeepSeek Chatが、類似のサイズのモデルをしのぐ、人間の評価基準の73.78%の合格率を達成したことです。また、調整なしでGSM8K数学データセットで84.1%をスコアリングするという卓越した力を示しました。

DeepSeek AIは、モデルの7億パラメータバージョンと67億パラメータバージョンを含む、ベースおよび専門用途のChatバリアントをオープンソース化することで、広範なAI研究と商業アプリケーションの促進を目指しています。

バイアスのない綿密なパフォーマンス評価を保証するために、DeepSeek AIは、ハンガリー国立高校試験やGoogleの指示に従った評価データセットなどの新しい問題集を設計しました。これらの評価は、モデルが以前に見たことのない試験やタスクを効果的に処理する能力を効果的に示しました。

スタートアップは、知的財産権を尊重しながら、多様性と独自性を高めることに焦点を当てた緻密なデータ収集とトレーニングプロセスについての洞察を提供しました。マルチステップのパイプラインでは、品質の高いテキスト、数学の式、コード、文学作品、さまざまなデータ型を選別し、有害な内容や重複したコンテンツを除外するためのフィルタを実装しました。

DeepSeekの言語モデルは、LLaMAに類似したアーキテクチャで設計され、厳格な事前トレーニングを受けました。7BモデルではMulti-Head Attentionを、67BモデルではGrouped-Query Attentionを利用しました。トレーニング計画では、大規模なバッチサイズとマルチステップの学習率スケジュールを使用し、堅牢で効率的な学習能力を確保しました。

これら最新のオープンソースLLMのリリースを主導することで、DeepSeek AIは言語理解とAIのアクセシビリティにおける重要なマイルストーンを築き、フィールドでのイノベーションとより広範な応用を促進しています。

この記事は、DeepSeek Open-Sources DeepSeek-67Bモデル:中国からの最新のChatGPTライバルに最初に掲載されたものです。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

HLTH 2023 AIを責任を持って医療に導入する

今年、AIについて話す人々が増えています医療の課題を解決するためには技術だけではなく、AIも必要ですが、AIこそが私たちが...

データサイエンス

「CNNによる特徴抽出の探求」

「畳み込みニューラルネットワークは、機械学習を用いた画像分類タスクにおいて、今日の基礎となっていますただし、分類の前...

AIニュース

Googleはチャットボットの使用について従業員に警告、ここにその理由があります

Googleの親会社であるAlphabet Inc.は、ChatGPTや自社製品であるBardを含むチャットボットの使用について従業員に注意を促し...

データサイエンス

「Microsoft AIが意図せずに秘密の情報を公開し、3年間にわたって38TBの機密データへのアクセス権を提供しました」

「過剰供給されたSASトークンが、約3年間にわたってGitHub上で38TBもの大量の個人データを公開していた物語」

データサイエンス

リトリーバル オーグメンテッド ジェネレーション(RAG)推論エンジンは、CPU上でLangChainを使用しています

「リトリーバル増強生成(RAG)は広範にカバーされており、特にチャットベースのLLMへの応用については詳しく語られています...

AIニュース

「OpenAIがGPT-4を使用してスマートなコンテンツモデレーションを行う方法」

人工知能のパイオニアであるOpenAIは、GPT-4モデルのパワーをコンテンツのモデレーションに活用する革新的な手法を発表しまし...