新しいAI研究が、転移学習のためのマルチタスクプロンプトチューニング(MPT)を紹介します

新しいAI研究はMPT(マルチタスクプロンプトチューニング)を紹介する

事前学習済み言語モデル(PLMs)は、フィネチューニングにより多くの下位NLPタスクで大幅に改善されています。現在のPLMsは数億のパラメータを含むことができますが、タスクごとのフルフィネチューニング(FT)の従来のパラダイムは、多数のタスクに拡張することが困難です。包括的なフィネチューニングに必要なより少ないパラメータを学習する必要性から、「パラメータ効率」のモデルチューニングに関する研究が急増しています。

PLMsを使用したパラメータ効率の高い転移学習において、最近はプロンプトチューニング(PT)が潜在的なオプションとして登場しています。PTは、トレーニング前に入力に調整可能な連続プロンプトベクトルを追加することで機能します。PLMの設定は固定され、PTは各タスクに対して限られた数のプロンプトベクトルのみを学習します。しかし、その驚異的な性能にもかかわらず、瞬間的なチューニングと完全なフィネチューニングの間にはまだ大きな差があります。また、この方法は初期化に非常に敏感であり、通常のフィネチューニング手続きよりも長いトレーニング時間を必要とします。

最近の研究では、他のジョブからプロンプトベクトルを再利用することでこれらの問題を解決する方法が提案されています。これらの戦略は、さまざまなソースタスクでソフトプロンプトをトレーニングすることから始まります。次に、これらの事前学習されたプロンプトを、(おそらく学習された)類似性尺度を使用してターゲットタスクのプロンプトのファインチューニングの出発点として使用します。

オハイオ州立大学、MIT-IBMワトソンAI研究所、マサチューセッツ工科大学の研究者は、マルチタスクプロンプトチューニング(MPT)を導入することで、この研究の一環をさらに発展させています。MPTは、マルチタスクデータを利用して、効率的にターゲットアクティビティに伝達できる単一のプロンプトを学習します。

共有プロンプト空間を学習するアイデアは簡単ですが、実際には非常に難しいことがあります。これは、さまざまなソースタスク間の類似性を習得しながら、その干渉を同時に減らす必要があるためです。研究者は、単にすべてのタスクでプロンプト行列を共有するのではなく、各ソースタスクのソフトプロンプトを共有行列と低ランクタスク固有行列の積として分解する方が成功すると見つけました。分解は、一貫したプロンプトチューニングを通じて獲得したソフトプロンプトからの情報を蒸留することによって教えられます。彼らは共通プロンプト行列に対して低ランクの乗算修正を実行し、ジョブ間を切り替えます。

様々なタスクの23のNLPデータセットに対する包括的なテストでは、提案された手法が最新のプロンプト転送手法を上回ることが示されています。T5-Baseを使用したMPTは、最も競争力のあるマルチタスクプロンプト転送ベースラインに比べて、SuperGLUEベンチマークで16.3%の改善を達成しています。一部の性能指標では、MPTはフルフィネチューニングを上回りますが、ジョブごとにわずか0.035%の設定可能なパラメータのみを使用しています。また、ターゲットタスクごとに4-32のラベルがある場合、MPTは少量のデータでも非常に成功することがわかっています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「ゼロからLLMを構築する方法」

「これは、大規模言語モデル(LLM)を実践的に使用するシリーズの6番目の記事です以前の記事では、プロンプトエンジニアリン...

データサイエンス

「機械エンジニアからデータサイエンティストへの転職方法」

データサイエンスは世界を変革し、問題解決のアプローチ方法を変えました。データプロフェッショナルへの高い需要、高収入、...

AI研究

「SMARTは、AI、自動化、そして働き方の未来を進めるための研究グループを立ち上げました」

「Mens, Manus and Machina (M3S)は、人間と機械の成功した協働のために、技術、トレーニングプログラム、および制度を設計し...

機械学習

「AIの力による消費者の支払い行動予測」

「AIが予測能力を活用して消費者の支払行動を理解し、予測する方法を発見し、事業に行動可能な洞察を提供する」

AI研究

「UCIとハーバードの研究者が、ユーザーに機械学習モデルを説明するTalkToModelを紹介する」

機械学習モデルは、スマートフォン、ソフトウェアパッケージ、オンラインサービスなど、さまざまな専門分野で欠かせないツー...

機械学習

線形回帰の理論的な深堀り

多くのデータサイエンス志望のブロガーが行うことがあります 線形回帰に関する入門的な記事を書くことですこれは、この分野に...