「言語モデルは単語以上に推論できるのか?複雑なタスクのための多層隠れ状態における暗黙の推論の探求」

『言語モデルの能力は単語以上の推論を行えるのか?複雑なタスクにおける多層隠れ状態の暗黙の推論の探求』

大規模言語モデル(LLM)は、言語理解や推論のようなタスクで傑出した能力を示し、AIシステムとの対話方法においてパラダイムシフトをもたらしています。LLMの能力を向上させるために、研究者は一般的には思考の鎖促進技術を使用します。この技術では、モデルの応答をガイドするために中間の推論ステップを使用します。この技術は人間が問題を解決する方法と似ていますが、LLMの計算能力を完全に活用していないため、この論文の著者は代替の推論手法を探求しました。

思考の鎖(CoT)メソッドは素晴らしい結果を示していますが、使用する際の欠点は、求められる最終回答の生成が遅れることです。研究者たちは、この欠点を解決するために暗黙的な思考の鎖という新しいアプローチを導入しました。その名前が示す通り、暗黙的な思考の鎖では、CoTの推論に関与するステップを暗示的にし、モデルが直接最終回答を生成するようにします。

明示的なCoT推論とは異なり、LLMは最終出力の前に中間ステップを生成するように訓練されますが、暗黙的なCoT推論では、モデルは中間ステップをトレーニング時のみ見ます。それはこれらのステップを内部状態で処理し、明示的な推論をバイパスしてコンセプトを徹底的に内部化するように学習します。

研究者たちは、暗黙的なCoT推論を実現するために通常の「教師強制」とは異なる「教師訓練」という方法を使用しました。彼らの戦略は、まず教師の隠れ状態を読み取り、その一部を利用して最終回答を生成するために生徒モデルを訓練することです。次に、知識の蒸留というプロセスを使用して、より大きなモデルからより小さなモデルへの知識の移転を行います。入力を基に、エミュレータを訓練して教師の隠れた状態を予測します。重要なことに、このエミュレーションはモデルの階層を縦方向に横断し、明示的な推論ステップの必要性を排除します。

最終的なステップでは、エミュレータを生徒と組み合わせて、エミュレートされた教師の思考プロセスに基づいて最終出力を生成します。統合システムはエンドツーエンドで最適化され、生徒モデルが独自の推論手法を開発し、教師とは異なる方法を展開することが可能になります。

研究者たちは、多桁の乗算と小学校の数学問題の2つのタスクで実験を行いました。その結果、明示的なCoTなしで以前に解けなかったタスクをモデルが解くことができるようになりました。暗黙的なCoTにおいて4桁の乗算で97%の正確性を達成したGPT-2 Smallモデルは、5桁の乗算のテストでパフォーマンスが低下したことから、テクニックの有効性は必要な計算に対して十分な中間層を持っていることに依存していることがわかりました。暗黙的なCoT技術は特に複数の中間ステップを必要とするタスクにおいて、より高い推論速度を持っていることも観察されました。

この技術に関連するいくつかの主要な問題は、透明性の欠如、教師の思考プロセスへの強い依存、および明示的なCoTと比較してのパフォーマンスの遅れです。ただし、この研究は暗黙的なCoTの構築に向けた初歩的なステップに過ぎず、研究者たちはこのプロセスをさらに最適化し、LLMの推論能力を強化するためにこの作業の上に多くの調整ができると考えています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

機械学習を直感的に理解する

確かに、ChatGPTのようなモデルの実際の理論は認めるには非常に難しいですが、機械学習(ML)の根底にある直感は、まあ、直感...

人工知能

ファッションにおけるGenAI | Segmind Stable Diffusion XL 1.0アプローチ

イントロダクション ファッション業界も例外ではなく、消費者の変化する好みに合わせて革新の最前線に留まる方法を模索してき...

AI研究

メイヨークリニックのAI研究者たちは、拡散モデルを活用したマルチタスク脳腫瘍インペインティングアルゴリズムを構築するための機械学習ベースの手法を紹介しました

近年、医用画像に関連するAI、特に機械学習(ML)に関する出版物の数は急増しています。Meshキーワード「人工知能」と「放射...

人工知能

ネットワークの強化:異常検知のためのML、AI、およびDLの力を解放する

「機械学習、人工知能、そしてディープラーニング技術が、異常を精度良く検出することでネットワークセキュリティを向上させ...

データサイエンス

「Data Enthusiasts向けにエキサイティングな新機能を解放するChatGPT Plus」

OpenAIは、この最先端のAIとのコミュニケーション方法を完全に変えると約束するベータバージョンをリリースしています。これ...

機械学習

Field Programmable Gate Array(FPGA)とは何ですか:人工知能(AI)におけるFPGA vs. GPU

フィールドプログラマブルゲートアレイ(FPGA)は、製造後に設定とカスタマイズが可能な集積回路です。これらのチップはこの...