COSPとUSPの内部：GoogleがLLMsの推論を進めるための新しい方法を研究する

COSPとUSPの内部を探る：GoogleがLLMsの推論を進めるための新たな方法に関する研究

適応プロンプティングにより、2つの新しい手法がLLMsにおける常識的な推論能力を高めます。

最近、AIに焦点を当てた教育ニュースレターを始めました。既に160,000人以上の購読者がいます。TheSequenceは、5分で読めるML志向のニュースレターで、ハイプやニュースなどは一切ありません。機械学習プロジェクト、研究論文、概念の最新情報をお届けすることを目的としています。以下の購読を試してみてください：

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向について最適な情報源

thesequence.substack.com

プロンプティングの進化は、LLMベースのアプリケーションの主要な構築要件の1つです。推論や微調整などのタスクでは、強力なプロンプティングデータセットが重要です。few-shot設定などのテクニックにより、特定のタスクにモデルを微調整するために膨大な量のデータが不要になることがあります。しかし、一般のモデルが多岐に渡るタスクをカバーする場合、サンプルプロンプトの作成は依然として課題が残ります。長い記事の要約や専門的なドメイン知識が必要な質問への対応など、わずかなデモンストレーションの生成さえも困難な場合があります。

このような場合、ロバストなゼロショットパフォーマンスを持つモデルが役立ちます。手動でプロンプトを生成する必要がなくなるのです。ただし、特定のガイダンスなしで言語モデルが動作するため、ゼロショットパフォーマンスは一般的にはそれほど強力ではなく、時折誤った出力が発生する可能性があります。

最近、Google Researchは、LLMsにおけるゼロショット適応型プロンプティングを進化させる2つの手法を紹介しました。最初の手法は、「一貫性ベースの自己適応プロンプティング（COSP）」と呼ばれ、最新のACL 2023の研究論文で概説されています。COSPは、未ラベルのサンプルとモデル自体の予測を活用して適切なプロンプトの生成の問題に取り組んでおり、ゼロショットとfew-shotのパフォーマンスギャップを埋めつつ、ゼロショットプロンプティングの利点を維持しています。

平行して、「ユニバーサルセルフ適応プロンプティング（USP）」として来るEMNLP 2023の論文で示されているように、このコンセプトをさまざまな自然言語理解および生成タスクに拡張し、その効果を実証しています。

COSPとUSPの詳細

COSPとUSPの核となるアイディアは、モデルのゼロショット出力をデモンストレーションとして利用することです。誤ったデモンストレーションは害を及ぼす可能性があるため、信頼性の高い自己生成デモンストレーションの選択が課題です。この課題を解決するために、COSPは、確信のあるモデルの予測が正しい可能性が高いという観察結果を生かしています。この信頼度の測定は、モデルの予測に基づいており、ラベル付きデータは必要ありません。高信頼度の予測とそれに対応する入力を擬似デモンストレーションとして扱います。

この基盤を活用し、モデルの出力の信頼性を自己一貫性評価を通じて推定し、正しさの尺度とします。複数回のゼロショットの促進によって、複数の可能な根拠と回答を生成し、ランダム性は「温度」というハイパーパラメータで制御されます。回答のエントロピーを計算して不確実性を定量化します。自己一貫性が高く、モデルの確信度が高い回答は信頼性があり、選択されます。

要約すると、COSPとUSPは次のような手順に従います：

・モデルに未ラベルの質問を入力して複数の根拠と回答を取得します。

・最も頻度が高い回答を強調し、複数のモデル出力間での一貫性を測定します。

・選択されたデモンストレーションでの反復を減らし、多様性を促進します。

· 疑似デモンストレーションをテストの質問に結合し、最終予測回答のためにモデルに再クエリを実行します。

COSPは、明確な正しい回答がある質問応答タスクに主に焦点を当てていますが、USPは確信度測定技術を適応させることで、分類、短形生成、長形生成を含む他のNLPタスクに手法を一般化します。USPでは、Google Researchはその手法を次の自然言語処理タスクの幅広いスペクトルに拡張しています：

· 分類（CLS）：このカテゴリでは、問題はニューラルネットワークの出力ロジットに基づいて各クラスの確率を決定することです。Google Researchは、このアプローチを用いて複数のサンプリングの必要性を排除し、ロジット分布のエントロピーを計算することで不確定性を評価します。

· 短形生成（SFG）：質問応答に類似した問題は、必要に応じてCOSPで使用される手順と同様の手順で利益を得ます。

· 長形生成（LFG）：要約や翻訳などのタスクでは、モデルが確信を持っていても、開放型の質問があり、非同一の出力が生成されることがよくあります。これらの場合、Google Researchは重複メトリックを使用し、同じクエリに対する異なる出力間の平均ペアワイズROUGEスコアを計算します。

これらの革新的なアプローチは、自然言語タスク全体にわたり、モデルが効果的にプロンプト自体を促進し、パフォーマンスを向上させることを可能にするAI分野での重要な進歩を表しています。

結果

Google Researchは、COSPとUSPをさまざまなベンチマークで評価しました。Consistency-Based Self-Adaptive Prompting（COSP）の場合、Google Researchは最初に6つの算術と常識的推論の問題に集中します。計算リソースの公平な比較を確保するために、ゼロショットCOSPは自己一貫性を全てのベースラインで使用し、0-shot-CoTアプローチと比較されます。3つの異なる大規模言語モデル（LLM）を対象とした結果は、明確にゼロショットCOSPが標準のゼロショットベースラインを上回っていることを示しています。

Universal Self-Adaptive Prompting（USP）では、Google Researchはより一層包括的なアプローチを採用し、25以上の分類タスク、短形生成、長形生成タスクを含む分析の範囲を広げています。さらに、彼らは状態-of-the-artのPaLM 2モデルを使用して、LLMが従来の人間のパフォーマンスと比較して苦労していたBIG-Bench Hardスイートのタスクに取り組んでいます。彼らのCOSPの研究結果と非常に一致する形で、Google Researchは、USPが常にベースライン手法を上回り、金の例を使ったプロンプトとの比較でも競争力を保っていることを示しています。

Google ResearchはUSPのメカニズムを理解するという取り組みを通じて、確信度と正確さの関係を調査しています。彼らの調査結果は、USPが主に確信のある予測を選択し、これによって様々な種類のタスク全体で優れた結果を出す傾向があることを裏付けています。これは、USPが多様な自然言語理解および生成タスクにおける言語モデルのパフォーマンスを向上させる効果を強化しています。

COSPとUSPは、LLMにおける常識的推論を向上させるためのプロンプト生成の重要な領域を探求しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Artificial IntelligenceGenerative AILarge Language ModelsMachine learningThesequence

Was this article helpful?

93 out of 132 found this helpful

COSPとUSPの内部：GoogleがLLMsの推論を進めるための新しい方法を研究する

適応プロンプティングにより、2つの新しい手法がLLMsにおける常識的な推論能力を高めます。

TheSequence | Jesus Rodriguez | Substack

機械学習、人工知能、データの最新動向について最適な情報源

COSPとUSPの詳細

結果

Was this article helpful?

「GPT-4 対ゼファー-7b-beta：どちらを使うべきか？」

ビジネスにおけるオープンソースと専有モデルの選択：生成型人工知能の展開において

AI研究

「コンパートメント化拡散モデル（CDM）異なるデータソース上で異なる拡散モデルまたはプロンプトをトレーニングするためのAIアプローチ」

マイクロソフトの研究者たちは「エモーションプロンプト」を発表しました：複数の言語モデルにおけるAIの感情的知性を向上させる

トランザクション分析：情報を解放し、貸し出しの判断をするための洞察を得る

「2024年にデータサイエンティストになるためのトップ10のKaggle機械学習プロジェクト」

テクノロジー・イノベーション・インスティテュートは、最新鋭のFalcon LLM 40BファウンデーションモデルをAmazon SageMakerでトレーニングします

モデルレジストリとAmazon SageMakerモデルカードを統合する