「類推的な & ステップバック型プロンプティング：Google DeepMindの最新の進歩に潜入する」

「革新的な予測と逆戻り型プロンプティング：Google DeepMindの最新の進展にはりつく」

イントロダクション

プロンプトエンジニアリングは、GPT-4などの大規模言語モデル（LLM）が望ましい応答を生成するための効果的なプロンプトの作成に焦点を当てています。よく作りこまれたプロンプトは、あいまいで不正確な回答と、正確で洞察に満ちた回答の違いとなり得ます。

AIの広範なエコシステムでは、プロンプトエンジニアリングは言語モデルからより正確で文脈に即した情報を抽出するために使用されるいくつかの手法の一つです。他の手法には、タスクを理解するために少数の例を与えるfew-shot学習、応答を特化させるために小さなデータセットでモデルをさらにトレーニングするファインチューニングなどがあります。

Google DeepMindは最近、プロンプトエンジニアリングとその可能性について探求した2つの論文を発表しました。これらの論文は、さまざまな状況での応答の向上を図るためのプロンプトの設計に関する新たな示唆を提供しています。

これらの研究論文の詳細については、AIやNLPの知識が限られている読者にもわかりやすくするために、この記事では概念、方法論、提案された技術の意義を詳しく探求します。

論文1：大規模言語モデルを類推的な論理推論器として活用する

「Large Language Models as Analogical Reasoners」という題名の最初の論文では、アナロジカルプロンプティングという新しいプロンプティングアプローチが紹介されています。著者のMichihiro Yasunaga、Xinyun Chenなどは、アナロジカルリーズニング（新しい問題に取り組むために過去の経験を利用する認知プロセス）から着想を得ました。

主な概念と方法論

アナロジカルプロンプティングは、LLMが特定の問題を解決する前に、適切な例題や知識を自己生成することを促すものです。このアプローチにより、ラベル付けされた例題が不要となり、汎用性と利便性が提供されます。さらに、生成された例題は各問題に適応されるため、適応性も確保されます。

左：通常のプロンプティング方法では一般的な入力（0-shot CoT）に頼ったり、ラベル付きの例を必要とする（few-shot CoT）必要があります。右：新しいアプローチでは、LLMが問題解決の前に関連のある例を自己生成するようにプロンプトを与えることで、ラベル付けが不要になり、例を問題ごとにカスタマイズすることができます。

自己生成された例題

論文で紹介される最初の手法は、自己生成された例題です。このアイデアは、LLMがトレーニング中に獲得した広範な知識を利用して新しい問題を解決するのを助けるものです。このプロセスでは、モデルに問題を提示し、3つの異なるかつ関連性のある問題を回想し、それらの問題や解決策を説明するよう指示します。

例えば、与えられた問題に対して、モデルには3つの別々で関連のある問題を回想し、それらについて説明し、その解決策を説明するよう指示されます。このプロセスは一度の実行で行われるように設計されており、LLMが関連する例を生成し、初期の問題をスムーズに解決できるようにします。プロンプト内の「#」記号の使用は、応答の構造化とモデルの理解を助けるために役立ちます。

論文で強調されている主な技術的な決定事項には、関連性と多様性のある例題の生成、利便性のための一度限りのアプローチ、3〜5の例題の生成が最良の結果をもたらすことが示されています。

自己生成された知識と例題

2番目の手法である自己生成された知識+例題は、コード生成などのより複雑なタスクにおける課題に対処するために導入されています。これらの場合、LLMは低レベルの例題に過度に依存し、ターゲットの問題を解決する際に一般化するのが難しい場合があります。著者らは、この問題を解決するために、モデルに問題の中核概念を特定し、チュートリアルや高レベルの要点を提供するような追加の指示をプロンプトに組み込むことを提案しています。

知識と例題の生成順序も重要な考慮事項です。著者らは、知識を例題の前に生成する方がより良い結果をもたらすことを発見しました。なぜなら、表面的な類似性ではなく、基本的な問題解決アプローチに焦点を当てることがLLMにとって有益だからです。

利点と応用

類推的な提示手法には、いくつかの利点があります。手動のラベリングを必要とせずに、推論の詳細な具体例を提供するため、0-shotとfew-shot chain-of-thought（CoT）メソッドに関連する課題に対処します。さらに、生成される具体例は個別の問題に合わせてカスタマイズされており、固定された具体例を使用する従来のfew-shot CoTよりもより関連性の高いガイダンスを提供します。

この手法の有効性は、数学の問題解決、コード生成、BIG-Benchの他の推論タスクなど、さまざまな推論タスクで示されています。

以下の表は、さまざまなモデルアーキテクチャ上でのさまざまな提示手法のパフォーマンスメトリクスを示しています。特に、「自己生成の具体例」メソッドは正確さの面で他の手法を常に上回っています。GSM8Kの正確さでは、この手法はPaLM2モデルで最高のパフォーマンスで81.7％を達成しています。同様に、MATHの正確さでは、GPT3.5-turboで37.3％というチャートのトップです。

数学的なタスク、GSM8KとMATHのパフォーマンス

数学のタスク、GSM8KとMATHのパフォーマンス

2つ目の表では、モデルGPT3.5-turbo-16kおよびGPT4において、「自己生成の知識+具体例」が最も優れたパフォーマンスを示しています。

Codeforcesコード生成タスクのパフォーマンス

論文2: ステップバック：大規模言語モデルにおける抽象化による推論の喚起

概要

第2の論文、「ステップバック：大規模言語モデルにおける抽象化による推論の喚起」は、Step-Back Promptingと呼ばれる技術を紹介しています。この技術は、LLM（Large Language Models）が詳細なインスタンスから高レベルの概念と基本原則を抽象化することを促すものです。著者のHuaixiu Steven Zheng、Swaroop Mishra、および他の研究者は、正しい推論の道筋をたどるようにLLMの推論能力を向上させることを目指しています。

キーコンセプトと原則によって導かれる抽象化と推論の2つの段階によるSTEP-BACK PROMPTINGの図解

以下は、基本的な数学問題を使用したより簡単な例を作成し、”ステップバックの質問”テクニックをデモンストレーションします。

元の質問: 電車が時速60 kmで120 kmの距離を移動した場合、何時間かかりますか？

オプション:

3時間 2時間 1時間 4時間 元の答え[不正解]: 正解は1)です。

ステップバックの質問: 速度と距離が与えられた場合、時間を計算するための基本的な式は何ですか？

原則: 時間を計算するには、式を使用します: 時間 = 距離 / 速度

最終的な答え: 式を使用して、時間 = 120 km / 60 km/h = 2時間。 正解は2) 2時間です。

現代のLLMは、上記の質問に簡単に答えることができますが、この例はステップバックテクニックがどのように機能するかを示すためのものです。より困難なシナリオでは、同じテクニックを適用して問題を体系的に分析し、対処することができます。以下は論文で示されているより複雑なケースです。

MMLU-Chemistryデータセット上のSTEP-BACK PROMPTINGの図解

キーコンセプトと方法論

Step-Back Promptingの本質は、LLMが比喩的な一歩を踏み出し、詳細に迷わずに大局を見ることを促す能力にあります。これは、慎重に作り込まれたプロンプトのシリーズによって達成され、LLMを抽象的な情報に導き、高レベルの概念を導き出し、これらの概念を用いて与えられた問題を解決することを促します。

プロセスは、与えられたインスタンスから詳細を抽象化するようにLLMに促されることから始まり、基礎となる概念と原則に焦点を当てるようにします。このステップは重要であり、LLMがより情報があるかつ原則に基づいた視点で問題に取り組むための準備を整えます。

高レベルの概念が導き出されると、それらは解決に向けた推論ステップをLLMにガイドするために使用されます。このガイダンスにより、LLMが正しい軌道に留まり、抽象化された概念と原則に基づいた論理的かつ統一されたパスをたどることが保証されます。

著者たちは、PaLM-2Lモデルを用いて、さまざまな論理的思考が必要なタスクであるSTEM問題、知識QA、およびマルチホップ推論を含む、Step-Back Promptingの有効性を検証するための一連の実験を行っています。これらのタスクにより、この手法を評価する包括的なテストベッドが提供されます。

タスク全体での大幅な改善

その結果、すべてのタスクでStep-Back Promptingによる大幅な性能向上が見られます。例えば、この技術は、「MMLU 物理」と「化学」の PaLM-2Lの性能をそれぞれ 7％と 11％向上させます。同様に、TimeQA では 27%、MuSiQue では 7% のパフォーマンス向上も実現しています。

STEP-BACK PROMPTINGのパフォーマンス

STEP-BACK PROMPTINGのパフォーマンス vs CoT

これらの結果から、Step-Back PromptingがLLMの推論能力を大幅に向上させる潜在能力があることが示されています。

結論

Google DeepMindの両論文は、プロンプトエンジニアリングの革新的なアプローチを提案し、大規模言語モデルの推論能力を向上させることを目指しています。アナロジカル・プロンプティングは、類推推論の概念を活用し、モデルが独自の例と知識を生成することを促し、より適応性のある効率的な問題解決が可能となります。一方、Step-Back Promptingは抽象化に焦点を当て、モデルが高レベルの概念と原則を導出し、それによって推論能力が向上するように誘導します。

これらの研究論文は、さまざまな分野で適用できる貴重な洞察と方法論を提供し、よりインテリジェントで能力のある言語モデルを実現するための重要な起点となります。プロンプトエンジニアリングの複雑な要素を探求し理解し続ける中で、これらのアプローチはより高度で洗練されたAIシステムの達成に向けた重要なステップとなります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AIDeepMindgoogleGptNLPPaLMPrompt Engineering

Was this article helpful?

93 out of 132 found this helpful

「類推的な & ステップバック型プロンプティング：Google DeepMindの最新の進歩に潜入する」

イントロダクション

論文1：大規模言語モデルを類推的な論理推論器として活用する

主な概念と方法論

自己生成された例題

自己生成された知識と例題

利点と応用

論文2: ステップバック：大規模言語モデルにおける抽象化による推論の喚起

概要

キーコンセプトと方法論

タスク全体での大幅な改善

結論

Was this article helpful?

この中国のAI研究は、マルチモーダルな大規模言語モデル（MLLMs）の幻覚を修正するために設計された革新的な人工知能フレームワークである「ウッドペッカー」を紹介します

AWSを使用したジェネレーティブAIを使用したサーバーレスイメージ生成アプリケーション

AIニュース

「自己修正手法を通じて、大規模言語モデル（LLM）の強化」

「サイバー攻撃により、NSF（国立科学財団）が資金提供した主要な望遠鏡が2週間以上閉鎖されました」

AIはクリエイティブな思考のタスクで人間を上回ることができるのか？この研究は人間と機械学習の創造性の関係についての洞察を提供します

オープンAIのCEOであるサム・アルトマン氏が解任されました

医療AIツールは危険な誤りを引き起こす可能性があります政府はそれらを予防するのに役立つのでしょうか？