新しいAI研究が「方向性刺激プロンプティング(DSP)」を導入:望ましい要約を生成するためにLLMをより適切に導くための新しいプロンプティングフレームワーク
新しいAI研究が「方向性刺激プロンプティング(DSP)」を導入' The new AI research introduces Directional Stimulus Prompting (DSP).
自然言語処理(NLP)は、最近の大規模言語モデル(LLM)の出現により、従来の比較的小さな言語モデル(LM)であるGPT-2やT5 Raffel et al.などを上回る性能を示すようになり、さまざまなNLPタスクでパラダイムシフトを経験しています。プロンプトは、LLMを使用して自然言語の指示を使用してさまざまなタスクを実行するための事実上の方法であり、パラメータの更新なしにLLMを誘導して望ましい出力を生成させるための方法です。これに対して、従来のファインチューニングパラダイムでは、LMのパラメータを各ダウンストリームタスクごとに更新することができます。
このプロンプトスキーマにより、LLMはゼロショットまたはフューショットの環境でさまざまなタスクで非常によいパフォーマンスを発揮することができますが、特定のダウンストリームタスクにおけるパフォーマンスはまだ改善が必要であり、特にトレーニングデータが利用可能な場合には追加の改良が必要です。それにもかかわらず、ほとんどのLLMはブラックボックスの推論APIのみを提供し、ファインチューニングにはコストがかかるため、ほとんどのユーザーや研究者はこれらのLLMを直接最適化することはできません。したがって、解決する必要のある難しいトピックは、トレーニングインスタンスが限られている場合にどのように効果的にLLMのパフォーマンスを向上させるか、です。カリフォルニア大学サンタバーバラ校とマイクロソフトの新しい研究では、指向性刺激プロンプティング(DSP)アーキテクチャを提案しています。このアーキテクチャは、小さなチューナブルLM(RL)を使用して、凍結されたブラックボックスLLMをダウンストリームタスクで強化するものです。
具体的には、各入力テキストに対して、小さなLM(ポリシーLMと呼ばれる)が指示された刺激として一連の離散トークンを提供し、ジョブに対する一般的なキューではなく、入力サンプルに関する特定の情報や指示を提供するように学習します。目的の目標、例えばパフォーマンスメジャースコアの向上などに向けて、作成された刺激は元の入力とブレンドされ、LLMに供給されます。彼らは最初に、収集されたわずかなトレーニングサンプルを使用して、事前トレーニングされたLMを使用した教師ありファインチューニング(SFT)を行います。トレーニングは、ポリシーLMによって生成される刺激に基づいてLLM生成のダウンストリームパフォーマンスメジャーのスコアを最大化することを目指しています。より良い刺激を探索するための追加の最適化の後、洗練されたLMはRLでポリシーLMを初期化します。
- スタンフォード大学とDeepMindの研究者が、大規模な言語モデル(LLMs)をプロキシ報酬関数として使用するアイデアを提案しました
- スタンフォード研究所がFlashAttention-2を発表:長い文脈の言語モデルの速度と効率の飛躍
- 「Google DeepMindの最新研究、ICML 2023にて」
図1は要約のジョブのサンプルを示しています。キーワードに基づいて必要な要約をLLMに生成させるために、キーワードは刺激(ヒント)として機能します。ポリシーLMは、ROUGEなどの評価メトリックスコアをインセンティブとして使用して最適化することができ、LLMがより良い要約を生成するためにポリシーLMがキーワードを提供するようにします。LLMは優れた生成スキルを持っていますが、しばしば望ましくない振る舞いを示すため、特定のダウンストリームタスクにおいて意図した生成特性と方向に対する詳細なガイダンスが必要です。これが彼らの提案手法の基礎です。小さなポリシーLMは、サンプルごとの細かいガイダンスを意図した目標に向けて提供するための一連のトークンを生成することができますが、人間の話し言葉に似たテキストを生成することはできません。
従来の研究がクエリをより明確に説明しようとするプロンプトエンジニアリング/最適化を介して最適なプロンプトを見つけるのに対して、RLは最適化されたオブジェクト(例:刺激を生成する小さなポリシーLM)とLLM生成によって定義される最適化目標とのギャップを埋める自然な解決策を提供します。彼らのアプローチは、各「質問」に対して「ヒント」または「手がかり」を提供しようとするものであり、推論タスクを解決する際に中間の推論ステップを生成することを促すチェーンオブソートプロンプティングとは異なります。彼らのアプローチは、1つの正しい「答え」だけではない生成タスクを対象とし、小さなチューナブルモデルを使用してLLMを制御およびガイドし、要約および対話応答生成タスクでフレームワークを評価しています。
たとえば、刺激を作り出す小さなポリシーLMは最適化されたオブジェクトですが、LLMの生成は最適化の目標を決定します。RLはこのギャップを埋めるための簡単な方法を提供します。以前の研究とは異なり、この研究ではプロンプトエンジニアリングや最適化を使用して「質問」を明確にしようと試みます。彼らの戦略は、各「質問」に対して「ヒント」や「手がかり」を提供することを目指しています。また、論理を必要とするタスクを完了する際に、Mindが独自の推論の中間ステップを生成することを奨励するチェーンオブソートプロンプティングとは異なります。彼らの手法は、複数の有効な「応答」を生成するジョブを対象とし、シンプルな調整可能なモデルを使用してLLMを制御・誘導します。ディスカッションの応答や要約の開発を必要とする課題に対して、彼らのフレームワークを評価します。テストでは、750M Flan-T5-largeをポリシーLMとし、175B CodexをLLMとして使用します。テスト結果によると、Codexは調整されたT5が生成した指示に依存すると、下流のタスクでのパフォーマンスが著しく向上します。要約に含まれるべきキーワードは、要約ジョブへの誘導刺激として使用されます。CNN/Daily Mailデータセットから2,000のサンプルを使用してトレーニングされたT5を使用することで、すでにCodexのパフォーマンスは7.2%向上しています。
MultiWOZデータセットからの500の対話に対して、意図された応答の背後の意味を指定する会話アクトを開発するために、彼らはポリシーLMをトレーニングします。ポリシーLMによって生成された対話アクションにより、Codexのパフォーマンスは合計スコアで52.5%向上しました。これにより、以前の完全なトレーニングデータ(8438の対話)でトレーニングされたシステムと同等またはそれ以上の性能を発揮します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- GoogleのAI研究者は、HyperDreamBoothを紹介しましたこれは、人の単一の画像から個別の重みを効率的に生成するAIアプローチであり、DreamBoothよりも小さく、25倍高速です
- KAISTとGoogleの研究者は、コラボレーションスコア蒸留(CSD)を導入しましたこれは、一貫した視覚合成のためのテキストから画像への拡散モデルの単数形を拡張したAIの手法です
- スタンフォードの研究者が提案する「EVAPORATE:言語モデルの推論コストを110倍削減する新しいAIアプローチ」
- スタンフォード大学の新しい人工知能研究は、説明が意思決定時のAIシステムへの過度の依存を軽減する方法を示しています
- CMUの研究者が「Zeno」という名前の、機械学習(ML)モデルの行動評価のためのフレームワークを紹介しました
- MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました
- スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています