この人工知能の研究は、トランスフォーマーベースの大規模言語モデルが外部メモリを追加して計算的に普遍的であることを確認しています
This research on artificial intelligence confirms that transformer-based large-scale language models are computationally universal by adding external memory.
トランスフォーマーベースのモデル(GPT-2やGPT-3など)によって達成された驚くべき結果は、研究コミュニティを大規模な言語モデル(LLM)の探求に引き寄せました。さらに、ChatGPTの最近の成功と人気は、LLMへの人々の関心を高めるだけです。文脈に即した学習と連想によるプロンプティングという2つの主要な発見は、モデルの正確性を大幅に向上させました。これらの発見は、単純な質問応答を超えています。質問が含まれる入力プロンプトを使用して、合理的な回答を出力するために使用されます。
これらのプロンプティング戦術はパフォーマンス向上に効果的でしたが、現在のトランスフォーマーベースのLLMは固定された入力文字列の長さにのみ条件付けることができ、それによって表現できる計算が制限されます。これは、有限な長さの文字列に依存する決定論的言語モデルは計算上制約されているため、計算的に制限されているとも理解できます。これに対抗するため、研究者はLLMに外部フィードバックループを追加する可能性を調査してきました。ここで、モデルの出力はいくつかの事後処理の後に入力として供給されます。ただし、この方法がモデルの計算セットを大幅に拡大するかどうかという問題はまだ解決されていません。
Google Brainとアルバータ大学の研究者は、この問題に取り組むために協力しました。彼らはLLMに外部の読み書き可能なメモリを追加し、それが任意の入力で任意のアルゴリズムをエミュレートできることを検証しました。彼らの研究は、「メモリ増強型大規模言語モデルは計算上普遍的である」という論文でまとめられており、連想型の読み書き可能なメモリが付加されたLLMが計算上普遍的である方法を示しています。
- スタンフォードの研究者たちは、Parselという人工知能(AI)フレームワークを紹介しましたこのフレームワークは、コードの大規模な言語モデル(LLMs)を使用して、複雑なアルゴリズムの自動実装と検証を可能にします
- 新しい人工知能(AI)の研究アプローチは、統計的な視点からアルゴリズム学習の問題として、プロンプトベースのコンテキスト学習を提示します
- Eleuther AI Research Groupが、Classifier-free Guidance(CFG)がLLMsとどのように組み合わされるかを実証しました
研究者たちの選んだLLMはFlan-U-PaLM 540Bでした。研究の背後にあるアイデアは、LLMと連想メモリをリンクするために単純なストアドインストラクションコンピュータを使用することです。これにより、言語モデルに転送される出力と入力プロンプトがループで相互作用することが可能になります。外部の連想メモリは辞書と見なすことができ、キーと値のペアは変数名/アドレス場所と値です。言語モデルとメモリは、各パーシングステップを実行するために正規表現マッチを使用します。
その後、システムに宇宙チューリングマシンの実行をシミュレートするように指示する「プロンプトプログラム」が開発されます。最終的に、シミュレーションの信頼性を示すためには、限られた数のプロンプト-結果のパターンを調べ、言語モデルが各有限の可能な入力文字列に対して適切な出力を生成することを確認する必要があります。この研究が言語モデルの「トレーニング」や事前学習の重みの変更を伴わないという事実は、この仕事の主な強みの1つです。代わりに、構築は特定のプロンプトでプログラム可能なタイプのストアドインストラクションコンピュータの作成にのみ依存しています。
この分野の以前の研究とは異なり、この研究は特異です。主な違いは、研究者が外部メモリの増強を使用して、固定された言語モデルと固定された事前学習の重みを使用して普遍的な計算動作を引き出す方法を示したことです。その結果、大規模な言語モデルは、現在存在する限り、無限の外部メモリにアクセスできる限り、計算上普遍的であることが示されました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- ビンガムトン大学の研究者たちは、社会的な写真共有ネットワークでの自分たちの顔の管理を可能にするプライバシー向上の匿名化システム(私の顔、私の選択)を紹介しました
- CMUの研究者がFROMAGeを紹介:凍結された大規模言語モデル(LLM)を効率的に起動し、画像と交錯した自由形式のテキストを生成するAIモデル
- OpenAIのChatGPTアプリがBingの統合機能を備えたブラウジング機能を導入しました
- ETH ZurichとMax Plankの研究者が提案するHOOD グラフニューラルネットワーク、マルチレベルメッセージパッシング、および教師なし学習を活用して現実的な衣類のダイナミクスを効率的に予測する新しいメソッド
- 研究者たちは、磁気のトリックを使って、量子コンピューティングの進歩を遂げました
- MITの研究者が、生成プロセスの改善のために「リスタートサンプリング」を導入
- 2023年にフォローすべきトップ10のAIインフルエンサー