Search Results GSM8K

「前方予測デコーディング」：LLM推論を加速するための並列デコーディングアルゴリズム

大規模な言語モデル（LLM）であるGPT-4やLLaMAなどは現代のアプリケーションを再構築し続けているが、推論は遅く最適化が困難であるため、自己回帰デコーディングに基づいている。LLMのリクエストの遅延は、リクエストの回答の長さ、または同等の復号化ステップの数にほとんど依存しており、自己回帰デコーディングの各ステップでは時間ごとに1つのトークンしか生成されないため、現在のGPUの並列処理能力は一般的に十分に活用されていない。これは、チャットボットや個人アシスタントなどの実用的なLLMアプリケーションでは問題となり、瞬時の応答を必要とするため、低レイテンシで大規模なシーケンスを頻繁に生成することになる。自己回帰デコーディングは、メドゥーサとOSDのような先読みデコーディング手法を使用することで高速化することができる。これらの手法は、「予測して確認する」という戦略を採用し、予備モデルが将来のいくつかの可能なトークンについて予測し、オリジナルのLLMがこれらの予測を並列で確認する。これにより、デコードのステップ数が少なくて済む場合にレイテンシを削減することができる。しかし、これらの手法には制約もある。まず、ドラフトモデルが主モデルの出力を適切に予測することができる割合、または同等のトークン受理率は、先読みデコーディング手法が達成できる最大の高速化の上限である。第二に、信頼性のある予備モデルを開発することは容易ではなく、通常はトラフィックの時間的な変動を考慮してトレーニングと細かい調整が必要となる。 LMSYS ORGによる新しい研究では、これらの困難に対処するために開発された新しい正確なデコーディング技術である「先読みデコーディング」を紹介している。1つのステップで多くの後続トークンをデコードすることは計算上制約がありますが、LLMは複数の直交n-gramを同時に生成できることが観察されています。これらのn-gramは将来のシーケンスの一部に適用することができます。従来のヤコビ反復法は並列デコーディングに適応され、自己回帰デコーディングを非線形方程式の解と見なすことが可能になります。生成されたn-gramは記録され、確認後、シーケンスに組み込まれます。先読みデコーディングは特に次のような点で注目に値するです。事前モデルを使用しないため、展開が高速化されます。各ステージごとにデコードのステップ数をlog(FLOPs)倍減少させる研究者は、先読みデコーディングがレイテンシを1.5倍から2.3倍低減することを実証しています。特に、ほとんど計算負荷を増やすことなく処理を削減することが可能です。ただし、利点は限定的です。彼らは自分たちの実装を作成し、huggingface/transformersとの互換性を持つように先読みデコーディングを作動させています。HuggingFaceはネイティブ生成関数を提供していますが、ユーザーはわずかなコードで効率を大幅に向上させることができます。ヤコビ反復法は非線形システムを解決するための確立された技術です。LLM推論は事前トレーニングモデルを必要とせず、並列にトークンを作成するためにも使用することができます。ヤコビデコーディングでは、各ステップで1つ以上のトークンに対してLLMの前方計算が行われるため、自己回帰デコーディングの各ステップよりもFLOPが多く必要です。研究者は、実世界のアプリケーションにおいてヤコビデコーディングのウォールクロック性能を大幅に改善しようとする際に遭遇するいくつかの困難を観察しています。ヤコビデコーディングは、多くのトークンを複数のステップでデコードすることができますが、トークンの順序がしばしば間違ってしまいます。適切に予測された場合でも、トークンは次のサイクルで置き換えられることがよくあります。そのため、わずかな反復で複数のトークンを同時に正確にデコードすることはできません。これにより、並列デコーディングを使用する目的が無効化されます。一般に、グラフィックス処理ユニットの並列処理能力のおかげで、パフォーマンスの低下は起こりません。先読みデコーディングは、ヤコビデコーディングの並列n-gram生成能力を生かすことで、これらの欠点を克服することができます。ある時点での各新しいトークンは、ヤコビデコーディングで前の反復のその位置の値を使用してデコードされます。このプロセスにより、多くのn-gramが形成され、各トークン位置の過去のトークンのタイムラインが作成されます。これを活用するため、先読みデコーディングではこれらのn-gramが軌跡に基づいて収集され、キャッシュされます。先読みデコーディングは、将来のトークンに対してヤコビ反復を使用した並列デコーディングを実行しながら、キャッシュから期待されるn-gramを同時に確認します。各先読みデコードフェーズは、効率を向上させるために、先読みブランチと検証ブランチの2つの並行したブランチに分割されます。Jacobi反復軌跡からn-gramを生成するため、先読みブランチは定数サイズの二次元ウィンドウを保持します。同時に、有望なn-gramの候補は検証ブランチによって選択され、確認されます。 LLMデコードにおいて主要なボトルネックはメモリーバンド幅であるため、研究者は先読みブランチと検証ブランチを1回の通過に組み合わせ、関連するオーバーヘッドを隠蔽しながらGPUの並列処理能力を活用します。研究チームは、LLaMA-2-ChatとCodeLLaMAの異なるサイズをMT-bench、HumanEval、GSM8Kでテストし、先読みデコードの有効性を確認しました。先読みデコード技術は、微調整や事前モデルの必要性なしに高速化を実現します。彼らはfp16精度の下で、単一のA100 GPUで7B、13B、33Bモデルを評価し、2つのA100 GPUで70Bモデルをパイプライン並列処理します。 MT-Bench LLaMA Discussion: 多くのモデル構成で、先読みデコードによるスピードアップは約1.5倍です。 HumanEval’s CodeLLaMA: CodeLLaMAでは、先読みデコードを使用するとHumanEvalのレイテンシが2倍以上減少します。これは、コードには数多くの容易に推測可能なN-gramが含まれているためです。 GSM8Kの教育用CodeLLaMA: 先読みデコードにより、CodeLLama-InstructorをGSM8Kの数学的な課題に適用することで、レイテンシが1.8倍減少します。…

算術推論問題のための即座のエンジニアリング

大規模言語モデル（LLM）は、言語の理解と生成の能力において、学術研究者と業界の専門家の両方からますます注目を集めていますその理由は…

このAIの論文は「ミスからの学習（LeMa）：エラー駆動学習を通じた大規模言語モデルにおける数学的推論の強化」という題目です

人間は、本質的には欠点のある存在として、成功と失敗によって特徴付けられる複雑な人生の旅を進んでいます。私たちの存在の大いなる織物の中で、間違いによって編み上げられる独自のパターンは、私たちの成長と発展に大きく寄与しています。間違いから学ぶことは、人間の経験にとって基本的であり、私たちの性格を形作り、抵抗力を育み、より啓発された未来に向かうための推進力となります。 LLMも間違いから学ぶことは可能でしょうか？可能です。GPT-3のような大規模な言語モデルは、正しい言語の使用例と誤った使用例を含む広範なデータから学習します。これらのモデルは、インターネット、本、記事などのさまざまなテキストを含む多様なデータセットでトレーニングされます。モデルはトレーニングデータのパターン、関係、文脈情報を認識します。文法、構文、意味、さらには言語の使用の微妙なニュアンスまで理解します。このエラー駆動型学習プロセスを模倣することで、交通大学、北京大学、マイクロソフトの研究者は、GPT-4によって生成された間違い訂正データのペアを使用してLLMを微調整するLEMAを提案しています。彼らは、学生が間違いから学ぶ学習プロセスから着想を得たと述べています。彼らの方法は、間違い訂正のデータペアを生成し、その後訂正データを使用してLLMを微調整することです。彼らは、LLaMAやGPTシリーズのモデルなどの複数のLLMを使用して、不正確な推論パスを収集し、訂正データを生成します。生成された訂正には、元の解答の間違った手順に関する3つの情報、この手順がなぜ間違っているのかの説明、正しい最終的な答えに辿り着くために元の解答をどのように訂正するかが含まれています。彼らは、最終的な答えが間違っている訂正を除外し、このプロセスが後続の微調整段階に適切な品質を示すと述べています。彼らは、各訓練セットの質問に対してさらに多くの推論パスを生成し、誤った最終的な答えを持つパスを選別します。これにより、LLMの拡張による強力な微調整ベースラインが構築され、微調整のためのデータサイズの制御に関するさらなる削除研究が容易になります。彼らは、質問合理的なデータのみでモデルを微調整します。 CoTデータのみで微調整する場合と比較して、LEMAはさまざまなLLMおよびタスクでパフォーマンスを一貫して向上させます。LLaMA-2-70Bを使用したLEMAは、GSM8Kでは83.5％、MATHでは25.0％を達成し、CoTデータのみで微調整するとそれぞれ81.4％、23.6％です。 LLMの最近の進歩により、彼らは段階的な問題解決アプローチを実行することができるようになりました。しかしこの段階的生成プロセスが、LLMが正確な理論の基礎となる論理とルールを本当に理解しているわけではなく、単に人間の論理の表面的な振る舞いを模倣しているだけであることを暗示してはいません。LEMAは、GPT-4をワールドモデルとして使用し、小さなモデルにステップバイステップの振る舞いを単に模倣するのではなく、論理とルールに従うように教えます。

「類推的な & ステップバック型プロンプティング：Google DeepMindの最新の進歩に潜入する」

「Google DeepMindの最新研究による2つの新しいプロンプト工学技術を探求し、アナロジカルプロンプティングとステップバックプロンプティング技術によって、GPT-4、PaLMなどの大規模言語モデルのパフォーマンスを数学、推論、コーディング、STEM問題などの複雑なタスクで向上させます」

MITの研究者らが、言語モデルの解読において、新たなトレーニングフリーかつゲーム理論に基づくAI手法を紹介

一部の課題は、現在の言語モデル（LM）によって比較的成功裡に処理されています。これには、質問に答える、事実確認、さらには無条件のテキスト生成など、事実の主張の作成または検証が必要なタスクが含まれます。しかし、増加するサイズに伴い、LMは誤ったが頻繁に繰り返されるコメントを生成しやすくなるという証拠が増えています。彼らは完全に信頼できるとは言えません。さらに、LMには事実生成タスクを解決するためのいくつかの機能があるため、問題が複雑化します。彼らは一部確定的な生成タスクの解決のために生成的に（最も可能性の高い答えを尋ねることによって）も識別的に（（質問-回答ペアを提示し、回答が受け入れ可能かどうか尋ねることによって）使用できますが、これらの2つの方法は時に異なる結果をもたらします。確率質量が複数の矛盾する回答に広がる場合、生成的な方法は失敗する可能性があります。一方、質問に微妙な依存関係があるか、較正不良のために識別的な方法は失敗する可能性があります。これらの混沌でしばしば相反するシグナルから、LMの真実に関する最良の推定値をどのように抽出すべきでしょうか？MITの研究者たちは、シグナルゲームであるCONSENSUS GAMEを使用して、生成的および識別的なLMのデコーディングプロセスをつなぐ方法を提供しています。ディスクリミネーターエージェントは、高レベルで抽象的な正しいまたは間違った値をジェネレーターエージェントに伝える必要がありますが、それを実現するには限られた数の自然言語文字列を利用するしかないようです。ジェネレーターとディスクリミネーターが文字列の正確さの割り当てで合意するという組み合わせのポリシーは、このゲームにとって成功したアプローチとなる可能性があります。彼らは、みんなが正しいと合意する候補者を見つけるために、そのようなアプローチを検討することができます。難しい（文字値の）アクション空間を持つ多段階ゲームを解く必要があります。No-regret学習アルゴリズムは、最近ではポーカーやストラテゴ、外交などのゲームで勝利戦略を計算するための定番の手法となっています。ここで、彼らは自由形式の言語の作成に関わるタスクでも使用できることを示しています。このゲーム理論的なLMデコーディングの手法は、EQUILIBRIUM-RANKINGとして知られています。それは、質問応答のパフォーマンスに関して6つのベンチマーク（MMLU、ARC、RACE、HHH、TruthfulQA、GSM8K）で使用され、現在使用されている生成的、識別的、混合のデコーディング手法を大幅に上回る結果が得られました。広い意味では、彼らの結果は、ゲーム理論的なツールセットがLMの一貫性を形式化し向上させるためにどのように使用できるかを示しています。事実タスクの正確性も一貫性の増加によって改善されます。

新しいAI論文で、CMUとGoogleの研究者が言語モデルの出力を再定義します：応答を一時停止トークンで遅延させることが、QAや推論のタスクでのパフォーマンスを向上させる方法

トークンは、トランスフォーマーに基づく因果言語モデルを使用して、高速に生成されます。このモデルは、K個の前のトークンを受け取り、各隠れ層でK個の中間ベクトルを反復的に計算して(K + 1)番目のトークンを生成します。モジュールは前のレイヤーの出力ベクトルに作用し、各ベクトルはそれ自体がモジュールの出力です。全体の手順の複雑さにもかかわらず、次のトークンを決定するために必要な操作の数は、すでに表示されたトークンの数で制約されなければなりません。カーネギーメロン大学とGoogleによる最近の研究では、デコーダのみのモデルの入力に偽のトークンを追加して出力を遅らせる戦略を調査しました。この研究では、(学習可能な)一時停止トークンを選択し、それを一度以上の連続したシーケンスで入力に追加することにしました。最後のトークンが表示された後のモデルの答えを得るために、それまでの一致する出力は単純に無視します。重要なのは、研究者たちは、このような遅延を推論時およびダウンストリームの組織微調整および事前学習時に挿入することを考えています。この表面上小さな調整が現実世界でどのような効果をもたらすかは現時点ではわかりません。遅延は、トランスフォーマーが利用できる「広い」計算チャネルを作成します。より単純な結果としては、モデルがトークンによる遅延の能力を無視し、実行を継続する可能性があります。トークン自体も、単一のトークンを埋め込むことによって導入されるわずかな新しいパラメータの数も、トレーニングデータから追加の情報をエンコードするのに適切ではありません。これらの意味のないトークンは、有用な信号を不明確にし、モデルを弱体化させる可能性があります。チームは、すべてのトレーニングおよび推論フェーズで(追加)遅延を導入した場合の結果を理解するために実証的な評価を行いました。彼らは、C4 (Raffel et al., 2019) で初めにトレーニングされ、抽出型質問回答、推論、一般的な理解、事実の回想をカバーする9つのダウンストリームタスクで微調整された10億パラメータのデコーダのみモデルに休止トレーニングを行った。最も重要なことは、この方法により、SQuAD抽出型質問回答タスクで1Bモデルの完全一致スコアが18%向上しました。同様に、CommonSense QAの一般的な理解タスクで8%の向上と、GSM8kの推論タスクで標準モデルの正確さ7.5%に対する1%の精度向上が観察されました。一方、トークンが最終的な微調整段階のみで導入される場合(ベースラインの事前学習モデルを使用)、改善はごく一部のケースで見られます。チームはまた、以下の重要な欠点を含む一連の実験も行いました: トークンを追加することが一般的に前置することよりも優れていることを発見しました。任意のダウンストリームタスクに対して最適なトークンの数があることを発見しました。推論時のトークン数を減らすことが、優雅なパフォーマンスの低下につながることを発見しました。チームは、通常の事前学習モデルで遅延を直接役立たせる方法の開発が、次の重要なステップであると考えています。彼らは、遅延次のトークン予測のパラダイムを拡張することで、新たな理論的および応用研究の方向性が開かれると予想しています。

マイクロソフトとMITの研究者たちによる新しい方法、AIの幻覚を減らすことを目指して

NLPの領域では、大規模な言語モデルがテキストデータとのやり取りにおいて重要な役割を果たしてきました重要な進展がある一方で、「幻覚」という問題は依然として存在し続けています幻覚とは、モデルが現実世界の事実と矛盾する情報を生成することです新しい論文によると、...

MAmmoTHとは、一般的な数学問題解決に特化したオープンソースの大規模言語モデル（LLM）シリーズです

現代の大規模言語モデル（LLM）は、数学的な推論に大きく依存しており、それがこの研究の主な焦点です。最近の進歩にもかかわらず、クローズドソースのモデル（GPT-4、PaLM-2、Claude 2など）は、GSM8KやMATHなどの人気のある数学的な推論のベンチマークを支配しており、オープンソースのモデル（Llama、Falcon、OPTなど）は遠く及ばない状況があります。このギャップを埋めるためには、2つの主要なアプローチがあります： GalacticaやMINERVAなどの継続的な事前学習：この方法では、数学に関連するウェブデータの100Bトークン以上を用いてLLMをトレーニングしています。計算コストが高いですが、この方法によりモデルの科学的推論能力が一般的に向上します。 RFT（rejection sampling fine-tuning）やWizardMathなどのデータセットごとに特化したファインチューニング手法：これらの手法は、それぞれのドメイン内では効果的ですが、推論が必要な数学の他の領域には適用できません。ウォータールー大学、オハイオ州立大学、HKUST、エディンバラ大学、IN.AIの最近の研究は、軽量かつ汎用性のある数学の指導調整技術を採用し、LLMの数学的推論能力を向上させる方法を模索しています（ファインチューニングタスクだけでなく一般的に）。現在のアプローチは、Chain-of-Thought（CoT）の方法論に大いに依存しており、数学の問題を自然言語のステップで解決する方法を説明しています。しかし、この方法は計算精度や難しい数学的・アルゴリズム的推論手法には対応しきれません。PoTやPALのようなコードベースの手法では、数学問題の解決手順を効率化するためにサードパーティのリソースを使用します。この方法では、計算量の多いタスク（例：sympyを使用した二次方程式の解法やnumpyを使用した行列の固有値の計算など）を別のPythonインタプリタに委任することが推奨されます。一方、PoTはより抽象的な推論シナリオ（常識的な推論、形式論理、抽象代数など）を扱う際にはいくつかの制限があります、特に事前存在しないAPIの場合には。 CoTとPoTの両方の利点を活かすために、研究チームは数学のための新しいハイブリッドな指導調整データセット「MathInstruct」を提案しています。その主な特徴は次のとおりです：さまざまな数学的領域と複雑度レベルの包括的なカバレッジハイブリッドなCoT＆PoTの根拠 6つの新たに選択されたデータセットと7つの既存のデータセットがMathInstructの数学的な正当化の基盤を提供しています。モデリングの観点から、研究者たちは入出力形式とデータソースの変動の影響を調べるために、約50のユニークなモデルをトレーニングおよび評価しています。結果として得られたモデルは数学的な一般化能力において非常に優れています。研究者たちは、MAmmoTHをGSM8K、MATH、AQuA-RAT、NumGLUEなどの様々なデータセットに対してテストしました。これらのモデルは、オープンソースのLLMの数学的な推論の効率を大幅に向上させ、最新のアプローチよりもOOD（ドメイン外）データセットに対してより一般化された性能を示します。人気のあるコンペティションレベルのMATHデータセットでの7Bモデルの結果は、WizardMath（オープンソースのMATHの最先端技術）よりも3.5倍（35.2％対10.7％）優れており、34BのMAmmoTH-Coder（Code Llamaで調整）の結果はCoTを使用したGPT-4よりも優れています。MAmmoTHとMAmmoTH-Coderの両方のモデルは、以前のオープンソースモデルよりも大幅に精度が向上しています。

「ベイチュアン2に会おう：7Bおよび13Bのパラメータを持つ大規模な多言語言語モデルのシリーズ、2.6Tトークンでゼロからトレーニングされました」

大規模言語モデルは近年、大きな進展を遂げています。GPT3、PaLM、Switch Transformersなどの言語モデルは、以前のELMoやGPT-1のようなモデルの数百万から、数十億、あるいは数兆のパラメータを持つようになりました。人間に似た流暢さを持ち、様々な自然言語の活動を行う能力は、モデルのサイズの成長により大幅に向上しました。OpenAIのChatGPTのリリースにより、これらのモデルが人間の話し言葉に似たテキストを生成する能力が大いに注目されました。ChatGPTは、カジュアルな会話から難しいアイデアの明確化まで、さまざまな文脈で優れた言語スキルを持っています。この革新は、自然言語の生成と理解を必要とするプロセスを自動化するために、巨大な言語モデルがどのように使用されるかを示しています。LLMの革新的な開発と使用が進んでいるにもかかわらず、GPT-4、PaLM-2、ClaudeなどのトップのLLMのほとんどはまだクローズドソースです。モデルのパラメータについて開発者や研究者が部分的なアクセスしか持てないため、このコミュニティがこれらのシステムを徹底的に分析や最適化することは困難です。LLMの透明性とオープンさがさらに向上することで、この急速に発展している分野での研究と責任ある進歩が加速される可能性があります。Metaが作成した巨大な言語モデルのコレクションであるLLaMAは、完全にオープンソースであることにより、LLMの研究コミュニティに大いに役立っています。 OPT、Bloom、MPT、Falconなどの他のオープンソースLLMとともに、LLaMAのオープンな設計により、研究者はモデルに自由にアクセスし、分析、テスト、将来の開発を行うことができます。このアクセシビリティとオープンさにより、LLaMAは他のプライベートLLMとは一線を画しています。Alpaca、Vicunaなどの新しいモデルは、オープンソースLLMの研究と開発のスピードアップによって可能になりました。しかし、英語はほとんどのオープンソースの大規模言語モデルの主な焦点となっています。たとえば、LLaMAの主なデータソースであるCommon Crawl1は、67%の事前学習データを含んでいますが、英語の資料しか含むことが許可されていません。MPTやFalconなど、異なる言語の能力に制約のあるフリーソースLLMも主に英語に焦点を当てています。そのため、中国語などの特定の言語でのLLMの開発と使用は困難です。Baichuan Inc.の研究者は、この技術的な研究で、広範な多言語言語モデルのグループであるBaichuan 2を紹介しています。Baichuan 2には、13兆パラメータを持つBaichuan 2-13Bと7兆パラメータを持つBaichuan 2-7Bの2つの異なるモデルがあります。両モデルは、Baichuan 1よりも2.6兆トークン以上のデータを使用してテストされました。Baichuan 2は、大量のトレーニングデータにより、Baichuan 1を大幅に上回るパフォーマンスを発揮します。Baichuan 2-7Bは、MMLU、CMMLU、C-Evalなどの一般的なベンチマークで、Baichuan 1-7Bよりも約30%優れたパフォーマンスを示します。Baichuan 2は特に数学とコーディングの問題のパフォーマンスを向上させるように最適化されています。 Baichuan 2は、GSM8KとHumanEvalのテストでBaichuan 1の結果をほぼ2倍に向上させます。また、Baichuan 2は医療および法律の領域の仕事でも優れた成績を収めています。MedQAやJEC-QAなどのベンチマークで他のオープンソースモデルを上回り、ドメイン特化の最適化のための良い基礎モデルとなっています。彼らはまた、人間の指示に従う2つのチャットモデル、Baichuan 2-7B-ChatとBaichuan 2-13B-Chatを作成しました。これらのモデルは、対話や文脈を理解するのに優れています。彼らはBaichuan 2の安全性を向上させるための戦略についてさらに詳しく説明します。これらのモデルをオープンソース化することで、大規模言語モデルのセキュリティをさらに向上させながら、LLMの責任ある作成に関する研究を促進することができます。…

MITとマイクロソフトの研究者が、DoLaという新しいAIデコーディング戦略を紹介しましたこれは、LLMsにおける幻覚を減らすことを目的としています

大規模言語モデル（LLM）の利用により、多くの自然言語処理（NLP）アプリケーションが大きな恩恵を受けてきました。LLMは性能が向上し、スケールアップにより追加の機能を獲得しましたが、事前トレーニング中に検出された実世界の事実と一致しない情報を「幻覚」する問題を抱えています。これは高リスクなアプリケーション（臨床や法的な設定など）において、信頼性のあるテキストの生成が不可欠な場合には、採用の障害となります。データとモデルの分布の間の前方KLダイバージェンスを最小化しようとする最尤言語モデリングのターゲットが、LLMの幻覚の原因かもしれません。しかし、これは確証されているわけではありません。この目標を追求する場合、LMは、トレーニングデータにエンコードされた知識と完全に一致しないフレーズに非ゼロの確率を割り当てる場合があります。モデルの解釈可能性の観点からは、トランスフォーマーの初期レイヤーは「低レベル」の情報（品詞タグなど）をエンコードすることが示されています。対照的に、後のレイヤーはより「意味的な」情報をエンコードします。 MITとMicrosoftの研究者グループは、このモジュラーな知識のエンコードを利用して、より深いレベルからの情報を優先し、中間または浅いレベルの情報を軽視することで、LMの事実の知識を増やすための対照的なデコーディング戦略を提案しています。彼らの最近の研究は、Decoding by Contrasting Layers（DoLa）という新しいデコーディング手法を紹介しています。提案された手法は、外部の知識を取得したり、さらなる微調整を行ったりせずに、LLMにエンコードされた事実知識の露出を改善することに基づいています。 DoLaは、TruthfulQAおよびFACTORの両方でLLaMAファミリーモデルの整合性を改善する実験的な証拠が示されています。StrategyQAとGSM8K ccの両方で、連鎖思考の推論に関する追加の実験は、事実の推論を改善する可能性を示しています。最後に、GPT-4で評価されたオープンエンドのテキスト生成の実験結果は、DoLaが情報を提供し、元のデコーディング手法と比較して優れた評価を導くより事実に基づく応答を生成することができることを示しています。DoLaは、LLMの信頼性を高めるためのデコーディング手法であり、研究結果はデコーディングプロセスにわずかな時間しか追加しないことを示しています。研究者たちは、他のドメイン（指示の従順性や人間のフィードバックへの反応など）でのモデルのパフォーマンスを調査していません。また、人間のラベルや事実情報源を利用して微調整するのではなく、チームは既存のアーキテクチャとパラメータに依存しており、可能な改善の範囲を制限しています。特定の回収強化LMとは異なり、この手法は完全にモデルの既存の知識に依存しており、外部の回収モジュールを介して新しい情報を追加することはありません。チームは、将来の研究が上記のコンポーネントをデコーディング技術に組み込んで制限を克服するのに役立つことを望んでいます。

Learn more about Search Results GSM8K - Page 2