中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

中国の研究者たちによるRetriKTの革命:大規模な事前学習済み言語モデルが実世界アプリケーションでの展開を一新

自然言語処理(NLP)のアプリケーションでは、事前学習済み言語モデル(PLMs)であるBERT/RoBERTaを含む、卓越したパフォーマンスが示されています。ただし、これらのモデルは非常に複雑であり、一般的には数億のパラメータを持っているため、研究者にとっては大きな困難をもたらします。そのため、大規模な事前学習済み言語モデル(PLMs)はまだ完全なポテンシャルを発揮していません。重み共有、量子化、ネットワークの剪定、知識の蒸留など、多くのモデル圧縮戦略が提案されていますが、知識蒸留のような大きな圧縮率が必要な状況は、これらのモデル圧縮技術には直接関連していません。

支援モデルを追加すると、しばしばより悪化し、不安定なパフォーマンスが生じることがあります。大規模言語モデル(LLMs)は、言語に高いスキルを持っており、さまざまな下流活動に利用することができるため、ますます人気が高まっています。そのため、この情報を小規模モデルに適用する方法を調査することは重要です。ただし、LLMsの圧縮率が非常に高いため、現在の方法ではこれらを圧縮することは適していません。以前の研究では、LLMsを小規模モデルに対して知識の転移やデータ拡張に利用することが提案され、後者は低リソースのデータセットでの性能向上を示しました。

しかし、小規模モデルの制約されたパラメータサイズは、SuperGLUEベンチマークのようなより難しいタスクを引き受ける際に障害となり、LLMsが伝える情報を保持することがより容易になります。その結果、小規模モデルの性能向上はまだ改善される必要があります。北京大学、美団、メタAI、国家汎人工知能研究センター(BIGAI)、中国人民大学の研究者らは、Retrieval-based information transmission(RetriKT)と呼ばれる革新的な圧縮パラダイムを提案しています。このパラダイムは、大規模言語モデル(LLMs)の情報を効率的かつ正確に小規模モデルに伝達することを目指しています。彼らの方法は主に2つのステップで構成されています。まず、LLMから知識を抽出して知識ストアを作成し、その後、小規模モデルは知識ストアから関連する情報を取得してタスクを完了します。

より正確に言うと、LLMがドメイン内のサンプルを生成するように調整するために、ソフトプロンプトチューニングの方法を使用します。また、生成品質を改善するために、Proximal Policy Optimization(PPO)強化学習技術を提供します。最後に、小規模モデルは知識ストアから関連データを取得する能力を獲得します。彼らはSuperGLUEベンチマークとGLUEベンチマークからの本当に困難で低リソースのタスクに対して包括的なテストを行っています。実験結果は、LLMsの情報を利用することで、RetriKTが小規模モデルの性能を大幅に改善し、以前の最先端の知識蒸留手法を上回ることを示しています。

これは、厳しいモデル圧縮のための情報検索ベースの知識転移パラダイムが実用的で成功していることを示唆しています。以下は、彼らの貢献の要約です:

・彼らが提案する新しい圧縮パラダイムであるRetrieval-based information transmissionは、LLMsから信じられないほど小規模なモデルに情報を伝達しようとするものです。

・生成品質を改善するために、彼らは慎重にインセンティブ関数を構築し、強化学習アルゴリズムであるPPOを提案しています。このパラダイムは、モデルサイズの大きな違いによる極端なモデル圧縮の問題に取り組んでいます。

・彼らはSuperGLUEベンチマークとGLUEベンチマークからの低リソースタスクで包括的なテストを行い、LLMsから収集された知識の正確さと多様性を向上させます。その結果、LLMsの情報を利用することで、RetriKTは小規模モデルの性能を大幅に向上させ、以前の最先端の知識蒸留手法を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

「T2I-Adapter-SDXL:小型で効率的な制御モデルに出会ってください」

T2I-アダプタは、完全な再学習を必要とせずにテキストから画像へのモデルを強化するプラグアンドプレイツールであり、Control...

機械学習

「GPS ガウシアンと出会う:リアルタイムにキャラクターの新しい視点を合成するための新たな人工知能アプローチ」

マルチビューカメラシステムの重要な機能の1つは、ソースの写真を使用して新しい視点から写真のような画像を生成する新規ビュ...

AI研究

「プリンストンの研究者たちは、CoALA(コアラ)という概念的なAIフレームワークを提案していますこれにより、言語エージェントを体系的に理解し構築することが可能となります」

人工知能の急速な進化の中で、人間の言語を理解し生成する能力を持つ言語エージェントを開発するという課題が課せられていま...

コンピュータサイエンス

「AI を活用した脳手術が香港で現実化」

中国科学院の人工知能とロボット研究センターは、脳腫瘍を治療するロボットの成功した試験を完了しました

機械学習

GAN(Generative Adversarial Networks)

GAN(Generative Adversarial Networks)とは、まずはGANが何かを理解しましょう私は既にジェネレーティブAIについてのブログ...

機械学習

「Hugging FaceはLLMのための新しいGitHubです」

ハギングフェイスは、大規模言語モデル(LLM)のための「GitHub」となりつつありますハギングフェイスは、LLMの開発と展開を...