「このAI研究は、合成的なタスクにおけるTransformer Large Language Models(LLMs)の制限と能力を、経験的および理論的に探求します」
This AI research explores the limitations and capabilities of Transformer Large Language Models (LLMs) in synthetic tasks, both empirically and theoretically.
ChatGPTはトレンドであり、毎日数百万人が利用しています。質問応答、ユニークで創造的なコンテンツの生成、大量のテキストデータの要約、コードの補完、非常に有用な仮想アシスタントの開発など、人間の模倣能力が素晴らしいため、ChatGPTは私たちの生活を楽にしてくれます。ChatGPTはOpenAIによって開発され、GPT 3.5(Generative Pre-Trained Transformer)およびGPT 4のトランスフォーマーアーキテクチャに基づいています。OpenAIがリリースした最新バージョンの言語モデルであるGPT 4は、従来のバージョンとは異なり、テキストと画像の形式で入力を受け取るマルチモーダルな性質を持っています。PaLM、LLaMA、BERTなどの他の大規模言語モデル(LLMs)も、医療、電子商取引、金融、教育などのさまざまなドメインのアプリケーションで使用されています。
研究者チームは、複雑なタスクにおけるGPTの印象的なパフォーマンスと簡単なタスクへの苦労の違いを最近公開された研究論文で強調しています。Transformer LLMの制限と能力について詳しく調査するために、チームは3つの代表的な構成タスク、つまり複数桁の乗算、論理グリッドパズル、クラシックな動的プログラミングの問題について実験を行いました。これらのタスクは、問題をより小さなステップに分解し、それらのステップを組み合わせて正確な解を生成することを必要とします。
複数ステップの推論を必要とする構成的なタスクを解決するTransformersの限界を研究することを目的として、著者らは2つの仮説を提案しています。まず、Transformersは複数ステップの推論をパスマッチングに線形化してタスクを達成し、実際に理解し実装する必要のある基本的な計算ルールを理解することなく、パターンマッチングとショートカット学習に依存しています。このアプローチにより、トレーニング中に類似したパターンでの高速かつ正確な予測が可能ですが、一般的で複雑な例には適用できません。2番目の仮説は、Transformersはユニークなパターンを持つ高度な構成的なタスクを解決しようとする際に固有の制限を持っているかもしれないというものです。初期の計算エラーが広がり、後のステップで深刻な複合エラーを引き起こし、モデルが正しい解にたどり着けなくなる可能性があります。
- 「Pythia 詳細な研究のための16個のLLMスイート」
- 「新しいAI研究が、PanGu-Coder2モデルとRRTFフレームワークを提案し、コード生成のための事前学習済み大規模言語モデルを効果的に向上させる」というものです
- 「AIと脳インプラントにより、麻痺した男性の運動と感覚が回復する」
著者らは、構成的なタスクを計算グラフとして定式化し、2つの仮説を調査するために行っています。これらのグラフは、問題の解決プロセスをより小さな、より管理しやすいサブモジュラーな機能ステップに分解し、言語モデルへの入力シーケンスとしての計算ステップの言語化を可能にします。彼らはさらに、グラフ内で完全な計算を実行せずに、モデルがおそらく学習するであろうパターンについての情報利得を使用して予測を行います。
経験的な調査結果に基づいて、著者らはTransformersが構成的な課題を、線形化されたサブグラフマッチングによって処理していることを提案しています。著者らは、抽象的な複数ステップの推論問題に基づいた理論的な議論を提供し、タスクの複雑さが増すにつれてTransformersのパフォーマンスが急速に低下することを強調しています。これは、モデルが既に非常に複雑な問題を扱う能力に制約がある可能性を示しています。
結論として、経験的および理論的な結果は、Transformersのパフォーマンスが、基本的な思考プロセスの徹底的な理解よりも主にパターンマッチングとサブグラフマッチングによって推進されていることを意味しており、これはまた、Transformersがますます困難なタスクに取り組むのが困難である可能性を裏付けています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- UCバークレーの研究者が、Neural Radiance Field(NeRF)の開発に利用できるPythonフレームワーク「Nerfstudio」を紹介しました
- AIを使用してAI画像の改ざんを防ぐ
- 「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」
- 中国からの新しいAI研究が提案するSHIP:既存のファインチューニング手法を改善するためのプラグアンドプレイの生成AIアプローチ
- ETHチューリッヒの研究者たちは、LMQLという言語モデルとの相互作用のためのプログラミング言語を紹介しました
- 「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」
- 「研究者がChatGPTを破った方法と、将来のAI開発に与える可能性」