新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します

新しいAI研究はMPT(マルチタスクプロンプトチューニング)を紹介する

事前学習済み言語モデル(PLMs)は、フィネチューニングにより多くの下位NLPタスクで大幅に改善されています。現在のPLMsは数億のパラメータを含むことができますが、タスクごとのフルフィネチューニング(FT)の従来のパラダイムは、多数のタスクに拡張することが困難です。包括的なフィネチューニングに必要なより少ないパラメータを学習する必要性から、「パラメータ効率」のモデルチューニングに関する研究が急増しています。

PLMsを使用したパラメータ効率の高い転移学習において、最近はプロンプトチューニング(PT)が潜在的なオプションとして登場しています。PTは、トレーニング前に入力に調整可能な連続プロンプトベクトルを追加することで機能します。PLMの設定は固定され、PTは各タスクに対して限られた数のプロンプトベクトルのみを学習します。しかし、その驚異的な性能にもかかわらず、瞬間的なチューニングと完全なフィネチューニングの間にはまだ大きな差があります。また、この方法は初期化に非常に敏感であり、通常のフィネチューニング手続きよりも長いトレーニング時間を必要とします。

最近の研究では、他のジョブからプロンプトベクトルを再利用することでこれらの問題を解決する方法が提案されています。これらの戦略は、さまざまなソースタスクでソフトプロンプトをトレーニングすることから始まります。次に、これらの事前学習されたプロンプトを、(おそらく学習された)類似性尺度を使用してターゲットタスクのプロンプトのファインチューニングの出発点として使用します。

オハイオ州立大学、MIT-IBMワトソンAI研究所、マサチューセッツ工科大学の研究者は、マルチタスクプロンプトチューニング(MPT)を導入することで、この研究の一環をさらに発展させています。MPTは、マルチタスクデータを利用して、効率的にターゲットアクティビティに伝達できる単一のプロンプトを学習します。

共有プロンプト空間を学習するアイデアは簡単ですが、実際には非常に難しいことがあります。これは、さまざまなソースタスク間の類似性を習得しながら、その干渉を同時に減らす必要があるためです。研究者は、単にすべてのタスクでプロンプト行列を共有するのではなく、各ソースタスクのソフトプロンプトを共有行列と低ランクタスク固有行列の積として分解する方が成功すると見つけました。分解は、一貫したプロンプトチューニングを通じて獲得したソフトプロンプトからの情報を蒸留することによって教えられます。彼らは共通プロンプト行列に対して低ランクの乗算修正を実行し、ジョブ間を切り替えます。

様々なタスクの23のNLPデータセットに対する包括的なテストでは、提案された手法が最新のプロンプト転送手法を上回ることが示されています。T5-Baseを使用したMPTは、最も競争力のあるマルチタスクプロンプト転送ベースラインに比べて、SuperGLUEベンチマークで16.3%の改善を達成しています。一部の性能指標では、MPTはフルフィネチューニングを上回りますが、ジョブごとにわずか0.035%の設定可能なパラメータのみを使用しています。また、ターゲットタスクごとに4-32のラベルがある場合、MPTは少量のデータでも非常に成功することがわかっています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AI研究

KAISTの研究者らが「SyncDiffusion」を提案:知覚的な類似度の損失関数から勾配降下法を使って複数の拡散を同期させるためのプラグアンドプレイモジュールです

最近の研究論文では、KAISTの研究者チームが、事前学習済みの拡散モデルを使用して、パノラマ画像の生成を向上させる画期的な...

データサイエンス

「アウトライア検出手法の比較」

外れ値検出は、与えられたデータセット内の異常値(珍しい観測値)を特定するための教師なしの機械学習タスクですこのタスク...

AI研究

スタンフォードの研究者が提案する「EVAPORATE:言語モデルの推論コストを110倍削減する新しいAIアプローチ」

近年、大型言語モデルは常に注目を浴びています。彼らの非凡な能力と様々な分野での応用により、新しい研究論文やLLMの新しい...

データサイエンス

A12研究者は、人工衛星画像から生成された世界の地理空間データを探索するための新しいAIプラットフォーム「Satlas」を紹介しました

タイムリーかつ正確な地理空間データが多くのグローバルな課題に対処するために不可欠である世界において、包括的かつ最新の...

データサイエンス

このAI研究は、車両の後続振る舞いモデリングのための包括的なベンチマークデータセット「FollowNet」を紹介します

他の車に続くことは、最も一般的で基本的な運転行動です。他の車に安全に従うことは、衝突を減らし、交通の流れを予測しやす...

機械学習

FLOPsとMACsを使用して、Deep Learningモデルの計算効率を計算する

この記事では、その定義、違い、およびPythonパッケージを使用してFLOPsとMACsを計算する方法について学びます