この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています

This research on artificial intelligence confirms that transformer-based large-scale language models are computationally universal by adding external memory.

トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語モデル(LLM)の探求に引き寄せました。さらに、ChatGPTの最近の成功と人気は、LLMへの人々の関心を高めるだけです。文脈に即した学習と連想によるプロンプティングという2つの主要な発見は、モデルの正確性を大幅に向上させました。これらの発見は、単純な質問応答を超えています。質問が含まれる入力プロンプトを使用して、合理的な回答を出力するために使用されます。

これらのプロンプティング戦術はパフォーマンス向上に効果的でしたが、現在のトランスフォーマーベースのLLMは固定された入力文字列の長さにのみ条件付けることができ、それによって表現できる計算が制限されます。これは、有限な長さの文字列に依存する決定論的言語モデルは計算上制約されているため、計算的に制限されているとも理解できます。これに対抗するため、研究者はLLMに外部フィードバックループを追加する可能性を調査してきました。ここで、モデルの出力はいくつかの事後処理の後に入力として供給されます。ただし、この方法がモデルの計算セットを大幅に拡大するかどうかという問題はまだ解決されていません。

Google Brainとアルバータ大学の研究者は、この問題に取り組むために協力しました。彼らはLLMに外部の読み書き可能なメモリを追加し、それが任意の入力で任意のアルゴリズムをエミュレートできることを検証しました。彼らの研究は、「メモリ増強型大規模言語モデルは計算上普遍的である」という論文でまとめられており、連想型の読み書き可能なメモリが付加されたLLMが計算上普遍的である方法を示しています。

研究者たちの選んだLLMはFlan-U-PaLM 540Bでした。研究の背後にあるアイデアは、LLMと連想メモリをリンクするために単純なストアドインストラクションコンピュータを使用することです。これにより、言語モデルに転送される出力と入力プロンプトがループで相互作用することが可能になります。外部の連想メモリは辞書と見なすことができ、キーと値のペアは変数名/アドレス場所と値です。言語モデルとメモリは、各パーシングステップを実行するために正規表現マッチを使用します。

その後、システムに宇宙チューリングマシンの実行をシミュレートするように指示する「プロンプトプログラム」が開発されます。最終的に、シミュレーションの信頼性を示すためには、限られた数のプロンプト-結果のパターンを調べ、言語モデルが各有限の可能な入力文字列に対して適切な出力を生成することを確認する必要があります。この研究が言語モデルの「トレーニング」や事前学習の重みの変更を伴わないという事実は、この仕事の主な強みの1つです。代わりに、構築は特定のプロンプトでプログラム可能なタイプのストアドインストラクションコンピュータの作成にのみ依存しています。

この分野の以前の研究とは異なり、この研究は特異です。主な違いは、研究者が外部メモリの増強を使用して、固定された言語モデルと固定された事前学習の重みを使用して普遍的な計算動作を引き出す方法を示したことです。その結果、大規模な言語モデルは、現在存在する限り、無限の外部メモリにアクセスできる限り、計算上普遍的であることが示されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

データサイエンス

イーロン・マスク氏とXAiチームがGrokを発表:人工知能(AI)の新たなフロンティア、ライブデータとChatGPTに対する最強の競合相手

イーロン・マスクは、宇宙と電気自動車に対する野心的な取り組みで知られるテック界の大物であり、現在は急成長している人工...

機械学習

メタファーAPI:LLM向けに構築された革命的な検索エンジン

インターネットは、誰もがどんなトピックに関しても最新の情報にアクセスできるユートピアでした。しかし、ユーザーの注意を...

AIニュース

このAI論文は、それぞれの手のモデルに基づいてアバター間で手のモーションの意味を転送することを目指しています

さまざまな仮想アバターの文脈において、共同話話や手話合成を含む様々なバーチャルアバターのコンテキストで、現実的な手の...

AI研究

このAI研究は、ITオペレーション向けの新しい大規模言語モデルであるOwlを紹介します

自然言語処理(NLP)と人工知能(AI)の絶え間なく進化する風景の中で、大規模言語モデル(LLM)は、さまざまなNLPのタスクで...

AI研究

カルテックとETHチューリッヒの研究者が画期的な拡散モデルを導入:最先端のビジュアルタスクと異なるドメインへの適応を実現するためのテキストキャプションの活用

拡散モデルは、テキストから画像の生成を革新し、古典的な機械学習のタスクにおいて新たな可能性を解き放っています。しかし...