中国の研究者たちは、RetriKTと呼ばれる新しい圧縮パラダイムを導入しました:大規模な事前学習済み言語モデルの実世界アプリケーションへの展開を革命化するものです
中国の研究者たちによるRetriKTの革命:大規模な事前学習済み言語モデルが実世界アプリケーションでの展開を一新
自然言語処理(NLP)のアプリケーションでは、事前学習済み言語モデル(PLMs)であるBERT/RoBERTaを含む、卓越したパフォーマンスが示されています。ただし、これらのモデルは非常に複雑であり、一般的には数億のパラメータを持っているため、研究者にとっては大きな困難をもたらします。そのため、大規模な事前学習済み言語モデル(PLMs)はまだ完全なポテンシャルを発揮していません。重み共有、量子化、ネットワークの剪定、知識の蒸留など、多くのモデル圧縮戦略が提案されていますが、知識蒸留のような大きな圧縮率が必要な状況は、これらのモデル圧縮技術には直接関連していません。
支援モデルを追加すると、しばしばより悪化し、不安定なパフォーマンスが生じることがあります。大規模言語モデル(LLMs)は、言語に高いスキルを持っており、さまざまな下流活動に利用することができるため、ますます人気が高まっています。そのため、この情報を小規模モデルに適用する方法を調査することは重要です。ただし、LLMsの圧縮率が非常に高いため、現在の方法ではこれらを圧縮することは適していません。以前の研究では、LLMsを小規模モデルに対して知識の転移やデータ拡張に利用することが提案され、後者は低リソースのデータセットでの性能向上を示しました。
しかし、小規模モデルの制約されたパラメータサイズは、SuperGLUEベンチマークのようなより難しいタスクを引き受ける際に障害となり、LLMsが伝える情報を保持することがより容易になります。その結果、小規模モデルの性能向上はまだ改善される必要があります。北京大学、美団、メタAI、国家汎人工知能研究センター(BIGAI)、中国人民大学の研究者らは、Retrieval-based information transmission(RetriKT)と呼ばれる革新的な圧縮パラダイムを提案しています。このパラダイムは、大規模言語モデル(LLMs)の情報を効率的かつ正確に小規模モデルに伝達することを目指しています。彼らの方法は主に2つのステップで構成されています。まず、LLMから知識を抽出して知識ストアを作成し、その後、小規模モデルは知識ストアから関連する情報を取得してタスクを完了します。
- 中国の研究者が提案する、新しい知識統合における大規模言語モデルの評価における画期的な人工知能ベンチマーク「ALCUNA」
- このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています
- 「Appleの研究者たちは、動的なポーズのRGB画像からの密集3D再構築において、画期的な人工知能アプローチを紹介する」
より正確に言うと、LLMがドメイン内のサンプルを生成するように調整するために、ソフトプロンプトチューニングの方法を使用します。また、生成品質を改善するために、Proximal Policy Optimization(PPO)強化学習技術を提供します。最後に、小規模モデルは知識ストアから関連データを取得する能力を獲得します。彼らはSuperGLUEベンチマークとGLUEベンチマークからの本当に困難で低リソースのタスクに対して包括的なテストを行っています。実験結果は、LLMsの情報を利用することで、RetriKTが小規模モデルの性能を大幅に改善し、以前の最先端の知識蒸留手法を上回ることを示しています。
これは、厳しいモデル圧縮のための情報検索ベースの知識転移パラダイムが実用的で成功していることを示唆しています。以下は、彼らの貢献の要約です:
・彼らが提案する新しい圧縮パラダイムであるRetrieval-based information transmissionは、LLMsから信じられないほど小規模なモデルに情報を伝達しようとするものです。
・生成品質を改善するために、彼らは慎重にインセンティブ関数を構築し、強化学習アルゴリズムであるPPOを提案しています。このパラダイムは、モデルサイズの大きな違いによる極端なモデル圧縮の問題に取り組んでいます。
・彼らはSuperGLUEベンチマークとGLUEベンチマークからの低リソースタスクで包括的なテストを行い、LLMsから収集された知識の正確さと多様性を向上させます。その結果、LLMsの情報を利用することで、RetriKTは小規模モデルの性能を大幅に向上させ、以前の最先端の知識蒸留手法を上回ります。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ISTAオーストリアとニューラルマジックの研究者が、トリリオンパラメータの言語モデルの効率的な実行のための革命的な圧縮フレームワークであるQMoEを紹介
- メタとUNC-Chapel Hillの研究者は、「Branch-Solve-Merge」という革新的なプログラムを導入しました:複雑な言語課題における大規模言語モデルの性能を向上させるプログラム
- CMU(カーネギーメロン大学)およびNYU(ニューヨーク大学)の研究者たちは、大規模言語モデル(LLM)を用いたゼロショット時系列予測のための人工知能メソッド「LLMTime」を提案しています
- シリコンボレー:デザイナーがチップ支援のために生成AIを活用
- バイデン大統領がAI実行命令を発布し、安全評価、市民権のガイダンス、労働市場への影響に関する研究を要求しています
- コロンビア大学とAppleの研究者が『フェレット』を紹介します画像の高度な理解と説明のための画期的な多モーダル言語モデルです
- 「NYUの研究者たちはゲノミクスのためのニューラルネットワークを作成し、それが予測にどのように辿り着くかを説明できることを示しました」