「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」

This AI research explores the limitations and capabilities of Transformer Large Language Models (LLMs) in synthetic tasks, both empirically and theoretically.

ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデータの要約、コードの補完、非常に有用な仮想アシスタントの開発など、人間の模倣能力が素晴らしいため、ChatGPTは私たちの生活を楽にしてくれます。ChatGPTはOpenAIによって開発され、GPT 3.5(Generative Pre-Trained Transformer)およびGPT 4のトランスフォーマーアーキテクチャに基づいています。OpenAIがリリースした最新バージョンの言語モデルであるGPT 4は、従来のバージョンとは異なり、テキストと画像の形式で入力を受け取るマルチモーダルな性質を持っています。PaLM、LLaMA、BERTなどの他の大規模言語モデル(LLMs)も、医療、電子商取引、金融、教育などのさまざまなドメインのアプリケーションで使用されています。

研究者チームは、複雑なタスクにおけるGPTの印象的なパフォーマンスと簡単なタスクへの苦労の違いを最近公開された研究論文で強調しています。Transformer LLMの制限と能力について詳しく調査するために、チームは3つの代表的な構成タスク、つまり複数桁の乗算、論理グリッドパズル、クラシックな動的プログラミングの問題について実験を行いました。これらのタスクは、問題をより小さなステップに分解し、それらのステップを組み合わせて正確な解を生成することを必要とします。

複数ステップの推論を必要とする構成的なタスクを解決するTransformersの限界を研究することを目的として、著者らは2つの仮説を提案しています。まず、Transformersは複数ステップの推論をパスマッチングに線形化してタスクを達成し、実際に理解し実装する必要のある基本的な計算ルールを理解することなく、パターンマッチングとショートカット学習に依存しています。このアプローチにより、トレーニング中に類似したパターンでの高速かつ正確な予測が可能ですが、一般的で複雑な例には適用できません。2番目の仮説は、Transformersはユニークなパターンを持つ高度な構成的なタスクを解決しようとする際に固有の制限を持っているかもしれないというものです。初期の計算エラーが広がり、後のステップで深刻な複合エラーを引き起こし、モデルが正しい解にたどり着けなくなる可能性があります。

著者らは、構成的なタスクを計算グラフとして定式化し、2つの仮説を調査するために行っています。これらのグラフは、問題の解決プロセスをより小さな、より管理しやすいサブモジュラーな機能ステップに分解し、言語モデルへの入力シーケンスとしての計算ステップの言語化を可能にします。彼らはさらに、グラフ内で完全な計算を実行せずに、モデルがおそらく学習するであろうパターンについての情報利得を使用して予測を行います。

経験的な調査結果に基づいて、著者らはTransformersが構成的な課題を、線形化されたサブグラフマッチングによって処理していることを提案しています。著者らは、抽象的な複数ステップの推論問題に基づいた理論的な議論を提供し、タスクの複雑さが増すにつれてTransformersのパフォーマンスが急速に低下することを強調しています。これは、モデルが既に非常に複雑な問題を扱う能力に制約がある可能性を示しています。

結論として、経験的および理論的な結果は、Transformersのパフォーマンスが、基本的な思考プロセスの徹底的な理解よりも主にパターンマッチングとサブグラフマッチングによって推進されていることを意味しており、これはまた、Transformersがますます困難なタスクに取り組むのが困難である可能性を裏付けています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

「OpenAIの研究者たちは、敵対的なトレーニングを行わずに高品質なデータサンプリングのための先進的なコンシステンシーモデルを開拓しました」

一貫性モデルは、敵対的なトレーニングに頼らずに、単一のステップで高品質のデータを生成するために設計された生成モデルの...

AIニュース

「GitLabがDuo Chatを導入:生産性向上のための対話型AIツール」

ソフトウェア開発では、開発者は複雑なコードやプロジェクトの問題の効率的な管理に取り組むことが多いです。ワークフローで...

AI研究

材料研究を革新するための機械学習の活用

素材科学の領域では、研究者は原子スケールで物質の複雑な振る舞いを解明するという大きな課題に直面しています。イネラステ...

データサイエンス

「ミストラル・トリスメギストス7Bにお会いしてください:神秘的で霊的なオカルトの知恵伝統に関する指示データセット...」

ミストラル・トリスメギストス7Bは、Google AIによって開発された巨大な言語モデルであり、巨大な文学とコードのデータセット...

AI研究

「Googleの研究者は、シーンのダイナミクスに先行する画像空間をモデリングするための新しい人工知能アプローチを発表します」

風や水の流れ、呼吸、自然のリズムなどのために、静止しているように思われる画像にも微細な振動が含まれています。これは自...

AI研究

「次世代ニューラルネットワーク:NeurIPSでの多くのAIの技術進歩をNVIDIA Researchが発表」

世界中の学術機関と協力して、NVIDIAの研究者は< a href=”https://www.voagi.com/ai-for-sustainable-banking-reduc...