Meet ChatGLM2-6B:オープンソースのバイリンガル(中国語-英語)チャットモデルChatGLM-6Bの第2世代バージョンです

ChatGLM2-6B is the second-generation version of the open-source bilingual (Chinese-English) chat model, ChatGLM-6B.

OpenAIの革命的なChatGPTの導入以来、自然言語対話エージェントの分野ではかなりの進歩が見られています。研究者たちは、チャットボットモデルの能力を向上させ、ユーザーとのより自然で魅力的な対話を作成できるようにするために、さまざまな技術と戦略を積極的に探求しています。その結果、ChatGPTの代替となるいくつかのオープンソースで軽量なモデルが市場に登場しています。その中の1つが、中国の清華大学の研究者によって開発されたChatGLMモデルシリーズです。このシリーズは、一般言語モデル(GLM)フレームワークをベースにしており、より一般的に見られるGenerative Pre-trained Transformer(GPT)グループのLLMとは異なります。このシリーズには、中国語と英語のバイリンガルモデルがいくつか含まれており、最もよく知られているのはChatGLM-6Bです。このモデルは62億のパラメータを持ち、1兆以上の英語と中国語のトークンで事前学習され、強化学習などの技術を用いて中国語の質問応答、要約、対話タスクにさらに微調整されています。

ChatGLM-6Bのもう1つの特徴は、その量子化技術により、ローカルで展開されることができ、非常に少ないリソースしか必要としないことです。モデルは、消費者向けのグラフィックスカードでもローカルに展開することができます。このモデルは特に中国で非常に人気があり、世界中で200万回以上ダウンロードされ、最も影響力のある大規模なオープンソースモデルの1つとなっています。その広範な採用の結果、清華大学の研究者はバイリンガルチャットモデルの第2世代バージョンであるChatGLM2-6Bをリリースしました。ChatGLM2-6Bは、第1世代モデルのすべての強みに加えて、パフォーマンスの向上、より長いコンテキストのサポート、より効率的な推論など、いくつかの新機能が追加されています。さらに、研究チームはモデルの重みの使用を学術目的に留まらず(以前に行われていたように)、商業利用にも利用できるように拡張しました。

研究者たちは、ChatGLM2-6Bのベースモデルを第1世代バージョンと比較して向上させることから始めました。ChatGLM2-6Bは、GLMのハイブリッド目的関数を使用し、1.4兆以上の英語と中国語のトークンで事前学習されました。研究者たちは、市場のほぼ同じサイズの他の競合モデルとのパフォーマンスを評価しました。その結果、ChatGLM2-6Bは、MMLU、CEval、BBHなどのさまざまなデータセットで顕著なパフォーマンスの向上を実現していることが明らかになりました。ChatGLM2-6Bが示したもう1つの印象的なアップグレードは、前バージョンの2Kから32Kまでのより長いコンテキストのサポートです。FlashAttentionアルゴリズムがこの点で重要な役割を果たし、より長いシーケンスに対してアテンションの高速化とメモリ使用量の削減を実現しました。さらに、モデルは対話のアライメント中に8Kのコンテキスト長でトレーニングされており、ユーザーにより多様な会話の深さを提供しています。ChatGLM2-6Bはまた、Multi-Query Attention技術を使用しており、KVキャッシュのGPUメモリ使用量が低下し、第1世代と比較して推論速度が約42%向上しています。

清華大学の研究者たちは、ChatGLM2-6Bをオープンソース化し、LLMの成長とイノベーションを促進し、そのモデルを基にしたさまざまな有用なアプリケーションの開発を世界中の開発者と研究者に呼びかけることを望んでいます。ただし、研究者たちは、モデルの規模が小さいため、その決定はしばしばランダムに影響を受ける可能性があること、その出力は正確性を慎重に確認する必要があることを強調しています。将来の作業に関しては、チームは一歩先を見越して、モデルの第3バージョンであるChatGLM3の開発を始めています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

画像をプロンプトに変換する方法:Img2Prompt AIモデルによるステップバイステップガイド

シンプルなAPIコールと少しのNode.jsで画像からプロンプトを収集する

人工知能

音楽作曲のための変分トランスフォーマー:AIは音楽家を置き換えることができるのか?

導入 音楽の魅力的な世界では、創造性には制約がありません。クラシックの交響曲からモダンなエレクトロニックビートまで、そ...

機械学習

「P+にお会いしましょう:テキストから画像生成における拡張テキスト反転のための豊かな埋め込み空間」

テキストから画像の合成は、テキストのプロンプト記述から現実的な画像を生成するプロセスを指します。この技術は、人工知能...

機械学習

この AI ペーパーでは、X-Raydar を発表します:画期的なオープンソースの深層ニューラルネットワークによる胸部 X 線異常検出

“` イギリスの様々な大学の研究者たちは、豊富なデータセットを用いて、総合的な胸部X線異常検出のためのオープンソー...

AIニュース

欧州とイスラエルのAIファーストスタートアップのための新しいアクセラレータ

この10週間のプログラムは、Googleとそのネットワークの最高の部分を活用して、AIをコアビジネスに使用しているスタートアッ...

機械学習

PyTorch LSTM — 入力、隠れ状態、セル状態、および出力の形状

「PyTorchでは、LSTM(nn.LSTM()を使用)を使用するために、入力時系列を表すテンソル、隠れ状態ベクトル、セル状態ベクトル...