中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました：大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

中国の研究者たちによるRetriKTの革命：大規模な事前学習済み言語モデルが実世界アプリケーションでの展開を一新

自然言語処理（NLP）のアプリケーションでは、事前学習済み言語モデル（PLMs）であるBERT/RoBERTaを含む、卓越したパフォーマンスが示されています。ただし、これらのモデルは非常に複雑であり、一般的には数億のパラメータを持っているため、研究者にとっては大きな困難をもたらします。そのため、大規模な事前学習済み言語モデル（PLMs）はまだ完全なポテンシャルを発揮していません。重み共有、量子化、ネットワークの剪定、知識の蒸留など、多くのモデル圧縮戦略が提案されていますが、知識蒸留のような大きな圧縮率が必要な状況は、これらのモデル圧縮技術には直接関連していません。

支援モデルを追加すると、しばしばより悪化し、不安定なパフォーマンスが生じることがあります。大規模言語モデル（LLMs）は、言語に高いスキルを持っており、さまざまな下流活動に利用することができるため、ますます人気が高まっています。そのため、この情報を小規模モデルに適用する方法を調査することは重要です。ただし、LLMsの圧縮率が非常に高いため、現在の方法ではこれらを圧縮することは適していません。以前の研究では、LLMsを小規模モデルに対して知識の転移やデータ拡張に利用することが提案され、後者は低リソースのデータセットでの性能向上を示しました。

しかし、小規模モデルの制約されたパラメータサイズは、SuperGLUEベンチマークのようなより難しいタスクを引き受ける際に障害となり、LLMsが伝える情報を保持することがより容易になります。その結果、小規模モデルの性能向上はまだ改善される必要があります。北京大学、美団、メタAI、国家汎人工知能研究センター（BIGAI）、中国人民大学の研究者らは、Retrieval-based information transmission（RetriKT）と呼ばれる革新的な圧縮パラダイムを提案しています。このパラダイムは、大規模言語モデル（LLMs）の情報を効率的かつ正確に小規模モデルに伝達することを目指しています。彼らの方法は主に2つのステップで構成されています。まず、LLMから知識を抽出して知識ストアを作成し、その後、小規模モデルは知識ストアから関連する情報を取得してタスクを完了します。

より正確に言うと、LLMがドメイン内のサンプルを生成するように調整するために、ソフトプロンプトチューニングの方法を使用します。また、生成品質を改善するために、Proximal Policy Optimization（PPO）強化学習技術を提供します。最後に、小規模モデルは知識ストアから関連データを取得する能力を獲得します。彼らはSuperGLUEベンチマークとGLUEベンチマークからの本当に困難で低リソースのタスクに対して包括的なテストを行っています。実験結果は、LLMsの情報を利用することで、RetriKTが小規模モデルの性能を大幅に改善し、以前の最先端の知識蒸留手法を上回ることを示しています。

これは、厳しいモデル圧縮のための情報検索ベースの知識転移パラダイムが実用的で成功していることを示唆しています。以下は、彼らの貢献の要約です：

・彼らが提案する新しい圧縮パラダイムであるRetrieval-based information transmissionは、LLMsから信じられないほど小規模なモデルに情報を伝達しようとするものです。

・生成品質を改善するために、彼らは慎重にインセンティブ関数を構築し、強化学習アルゴリズムであるPPOを提案しています。このパラダイムは、モデルサイズの大きな違いによる極端なモデル圧縮の問題に取り組んでいます。

・彼らはSuperGLUEベンチマークとGLUEベンチマークからの低リソースタスクで包括的なテストを行い、LLMsから収集された知識の正確さと多様性を向上させます。その結果、LLMsの情報を利用することで、RetriKTは小規模モデルの性能を大幅に向上させ、以前の最先端の知識蒸留手法を上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage model

Was this article helpful?

93 out of 132 found this helpful

中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました：大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです

Was this article helpful?

出生前診断の革命：PAICSディープラーニングシステムが神経超音波画像から胎児の頭蓋内奇形の検出を強化する方法をご覧ください

「PythonでCuPyを使ってGPUのパワーを最大限に活用する」

AI研究

「グラフ彩色問題：正確な解とヒューリスティックな解」

機械学習モデルのための高度な特徴選択技術

「最もテクノロジー志向のある米国の都市は、自動運転車について疑問を抱いています」

イクイノックスに会いましょう：ニューラルネットワークとsciMLのためのJAXライブラリ

ドローンは、液体ニューラルネットワークを使用して未知の環境をナビゲートします

このAI論文では、リーマン幾何学を通じて拡散モデルの潜在空間の理解に深入りします