Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです

ChatGLM2-6B is the second-generation version of the open-source bilingual (Chinese-English) chat model, ChatGLM-6B.

OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャットボットモデルの能力を向上させ、ユーザーとのより自然で魅力的な対話を作成できるようにするために、さまざまな技術と戦略を積極的に探求しています。その結果、ChatGPTの代替となるいくつかのオープンソースで軽量なモデルが市場に登場しています。その中の1つが、中国の清華大学の研究者によって開発されたChatGLMモデルシリーズです。このシリーズは、一般言語モデル(GLM)フレームワークをベースにしており、より一般的に見られるGenerative Pre-trained Transformer(GPT)グループのLLMとは異なります。このシリーズには、中国語と英語のバイリンガルモデルがいくつか含まれており、最もよく知られているのはChatGLM-6Bです。このモデルは62億のパラメータを持ち、1兆以上の英語と中国語のトークンで事前学習され、強化学習などの技術を用いて中国語の質問応答、要約、対話タスクにさらに微調整されています。

ChatGLM-6Bのもう1つの特徴は、その量子化技術により、ローカルで展開されることができ、非常に少ないリソースしか必要としないことです。モデルは、消費者向けのグラフィックスカードでもローカルに展開することができます。このモデルは特に中国で非常に人気があり、世界中で200万回以上ダウンロードされ、最も影響力のある大規模なオープンソースモデルの1つとなっています。その広範な採用の結果、清華大学の研究者はバイリンガルチャットモデルの第2世代バージョンであるChatGLM2-6Bをリリースしました。ChatGLM2-6Bは、第1世代モデルのすべての強みに加えて、パフォーマンスの向上、より長いコンテキストのサポート、より効率的な推論など、いくつかの新機能が追加されています。さらに、研究チームはモデルの重みの使用を学術目的に留まらず(以前に行われていたように)、商業利用にも利用できるように拡張しました。

研究者たちは、ChatGLM2-6Bのベースモデルを第1世代バージョンと比較して向上させることから始めました。ChatGLM2-6Bは、GLMのハイブリッド目的関数を使用し、1.4兆以上の英語と中国語のトークンで事前学習されました。研究者たちは、市場のほぼ同じサイズの他の競合モデルとのパフォーマンスを評価しました。その結果、ChatGLM2-6Bは、MMLU、CEval、BBHなどのさまざまなデータセットで顕著なパフォーマンスの向上を実現していることが明らかになりました。ChatGLM2-6Bが示したもう1つの印象的なアップグレードは、前バージョンの2Kから32Kまでのより長いコンテキストのサポートです。FlashAttentionアルゴリズムがこの点で重要な役割を果たし、より長いシーケンスに対してアテンションの高速化とメモリ使用量の削減を実現しました。さらに、モデルは対話のアライメント中に8Kのコンテキスト長でトレーニングされており、ユーザーにより多様な会話の深さを提供しています。ChatGLM2-6Bはまた、Multi-Query Attention技術を使用しており、KVキャッシュのGPUメモリ使用量が低下し、第1世代と比較して推論速度が約42%向上しています。

清華大学の研究者たちは、ChatGLM2-6Bをオープンソース化し、LLMの成長とイノベーションを促進し、そのモデルを基にしたさまざまな有用なアプリケーションの開発を世界中の開発者と研究者に呼びかけることを望んでいます。ただし、研究者たちは、モデルの規模が小さいため、その決定はしばしばランダムに影響を受ける可能性があること、その出力は正確性を慎重に確認する必要があることを強調しています。将来の作業に関しては、チームは一歩先を見越して、モデルの第3バージョンであるChatGLM3の開発を始めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

このAI研究論文は、視覚の位置推定とマッピングのための深層学習に関する包括的な調査を提供しています

もし私があなたに「今どこにいるの?」または「周りの様子はどうですか?」と尋ねたら、人間の多感覚知覚という独特な能力の...

AI研究

「DevOps 2023年の状況報告書:主要な調査結果と洞察」

年次調査の結果が発表されました画期的な発見がありますこのレポートは、AIとドキュメンテーションが生産性と仕事の満足度に...

データサイエンス

機械学習を直感的に理解する

確かに、ChatGPTのようなモデルの実際の理論は認めるには非常に難しいですが、機械学習(ML)の根底にある直感は、まあ、直感...

機械学習

『Generative AIがサイバーセキュリティを強化する3つの方法』

人間のアナリストは、サイバーセキュリティ攻撃の速度と複雑さに対して効果的に防御することができなくなっています。データ...

データサイエンス

データサイエンスのプロフェッショナルにおすすめのトップ5のAIツール

イントロダクション 今日のデータ主導の世界では、データサイエンスは情報の活用とイノベーションにおいて重要な分野となって...

機械学習

このAIニュースレターは、あなたが必要とするすべてです #57

「AIの世界では、LLMモデルのパフォーマンス評価が注目の話題となりました特に、スタンフォードとバークレーの学生による最近...