中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

中国の研究者たちによるRetriKTの革命:大規模な事前学習済み言語モデルが実世界アプリケーションでの展開を一新

自然言語処理(NLP)のアプリケーションでは、事前学習済み言語モデル(PLMs)であるBERT/RoBERTaを含む、卓越したパフォーマンスが示されています。ただし、これらのモデルは非常に複雑であり、一般的には数億のパラメータを持っているため、研究者にとっては大きな困難をもたらします。そのため、大規模な事前学習済み言語モデル(PLMs)はまだ完全なポテンシャルを発揮していません。重み共有、量子化、ネットワークの剪定、知識の蒸留など、多くのモデル圧縮戦略が提案されていますが、知識蒸留のような大きな圧縮率が必要な状況は、これらのモデル圧縮技術には直接関連していません。

支援モデルを追加すると、しばしばより悪化し、不安定なパフォーマンスが生じることがあります。大規模言語モデル(LLMs)は、言語に高いスキルを持っており、さまざまな下流活動に利用することができるため、ますます人気が高まっています。そのため、この情報を小規模モデルに適用する方法を調査することは重要です。ただし、LLMsの圧縮率が非常に高いため、現在の方法ではこれらを圧縮することは適していません。以前の研究では、LLMsを小規模モデルに対して知識の転移やデータ拡張に利用することが提案され、後者は低リソースのデータセットでの性能向上を示しました。

しかし、小規模モデルの制約されたパラメータサイズは、SuperGLUEベンチマークのようなより難しいタスクを引き受ける際に障害となり、LLMsが伝える情報を保持することがより容易になります。その結果、小規模モデルの性能向上はまだ改善される必要があります。北京大学、美団、メタAI、国家汎人工知能研究センター(BIGAI)、中国人民大学の研究者らは、Retrieval-based information transmission(RetriKT)と呼ばれる革新的な圧縮パラダイムを提案しています。このパラダイムは、大規模言語モデル(LLMs)の情報を効率的かつ正確に小規模モデルに伝達することを目指しています。彼らの方法は主に2つのステップで構成されています。まず、LLMから知識を抽出して知識ストアを作成し、その後、小規模モデルは知識ストアから関連する情報を取得してタスクを完了します。

より正確に言うと、LLMがドメイン内のサンプルを生成するように調整するために、ソフトプロンプトチューニングの方法を使用します。また、生成品質を改善するために、Proximal Policy Optimization(PPO)強化学習技術を提供します。最後に、小規模モデルは知識ストアから関連データを取得する能力を獲得します。彼らはSuperGLUEベンチマークとGLUEベンチマークからの本当に困難で低リソースのタスクに対して包括的なテストを行っています。実験結果は、LLMsの情報を利用することで、RetriKTが小規模モデルの性能を大幅に改善し、以前の最先端の知識蒸留手法を上回ることを示しています。

これは、厳しいモデル圧縮のための情報検索ベースの知識転移パラダイムが実用的で成功していることを示唆しています。以下は、彼らの貢献の要約です:

・彼らが提案する新しい圧縮パラダイムであるRetrieval-based information transmissionは、LLMsから信じられないほど小規模なモデルに情報を伝達しようとするものです。

・生成品質を改善するために、彼らは慎重にインセンティブ関数を構築し、強化学習アルゴリズムであるPPOを提案しています。このパラダイムは、モデルサイズの大きな違いによる極端なモデル圧縮の問題に取り組んでいます。

・彼らはSuperGLUEベンチマークとGLUEベンチマークからの低リソースタスクで包括的なテストを行い、LLMsから収集された知識の正確さと多様性を向上させます。その結果、LLMsの情報を利用することで、RetriKTは小規模モデルの性能を大幅に向上させ、以前の最先端の知識蒸留手法を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

TensorRT-LLMとは、NVIDIA Tensor Core GPU上の最新のLLMにおいて推論パフォーマンスを高速化し最適化するためのオープンソースライブラリです

人工知能(AI)の大規模言語モデル(LLM)は、テキストを生成したり、言語を翻訳したり、さまざまな形式の創造的な素材を書い...

機械学習

大規模言語モデル(LLM)の微調整

この投稿では、事前学習されたLLMをファインチューニング(FT)する方法について説明しますまず、FTの重要な概念を紹介し、具...

機械学習

アクセンチュアは、AWS上でジェネレーティブAIサービスを使用して、ナレッジアシストソリューションを作成しました

この投稿はアクセンチュアのイラン・ゲラーとシュウユ・ヤンと共同で執筆されました現在、企業は内部および外部のビジネス活...

機械学習

Paellaを紹介します:安定した拡散よりもはるかに高速に高品質の画像を生成できる新しいAIモデル

過去2〜3年で、人工知能(AI)を使用してテキストから画像を生成する方法に関する研究の質と量が驚異的に増加しています。こ...

AI研究

MITとFAIR Metaの研究者は、「組織化された条件つき画像生成 (Representation-Conditioned Image Generation; RCG):クラス非依存の画像生成における画期的なAIフレームワーク」を発表しました

人の注釈に頼らずに高品質な画像を生成する方法はありますか?MIT CSAILとFAIR Metaのこの論文では、人の注釈に頼らずに高品...

機械学習

ChatArenaをご紹介します:複数の大規模言語モデル(LLMs)間のコミュニケーションとコラボレーションを容易にするために設計されたPythonライブラリです

ChatArenaは、様々な巨大言語モデルを支援するために作成されたPythonパッケージです。ChatArenaにはすでにマルチエージェン...