『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』

AI論文によると、言語モデルは異なるレベルの専門知識を持つパターンマシンとして説明されます

LLM（Large Language Models）は、言語の構造に織り込まれている多くのパターンを取り入れるように教えられます。これらはロボット工学で使用され、高レベルの計画者として命令に従うタスク、ロボットポリシーを表すプログラムの合成、報酬関数の設計、およびユーザーの好みの一般化を行うことができます。また、論理的な推論の連鎖を生成したり、ロジックパズルを解いたり、数学の問題を解いたりするなど、さまざまなアウトオブザボックスの能力も示します。これらの設定は、入出力の形式を確立するテキストプロンプトのインコンテキスト例に依存しており、入出力は意味論的なままです。

彼らの研究の重要な発見の1つは、LLMがより抽象的で非言語的なパターンを表現、変更、および推測する能力により、より単純なタイプの一般パターンマシンとして機能する可能性があることです。この発見は、従来の知恵に反するかもしれません。このトピックを説明するために、抽象的な推論コーパスを考えてみましょう。この広範なAIベンチマークには、インフィリング、カウント、オブジェクトの回転などの抽象的な概念を示唆するパターンを持つ2Dグリッドのコレクションが含まれています。各タスクは、関連する結果を予測するためのいくつかの入出力の関係のインスタンスから始まり、テスト入力に移行します。多くのプログラム合成ベースのアプローチは、ドメイン固有の言語を使用して手動で構築されるか、ベンチマークの簡略化バリエーションまたはサブセットに対して評価されます。

彼らの実験によれば、ASCIIアートのスタイルでインコンテキストのプロンプトを行うLLMは、800問の問題のうち最大85問の解を正しく予測し、これまでの最も優れた手法を凌駕し、追加のモデルトレーニングやファインチューニングの必要はありません。一方、エンドツーエンドの機械学習手法は、ごく少数のテスト問題しか解決できません。驚くべきことに、このことはASCII数字についてだけでなく、LLMがトークンの代わりにレキシコンからランダムに選択されたトークンへのマッピングである場合でも、良い回答を生成する可能性があることが分かります。これらの発見は、特定のトークンに依存しないより広範な表現能力と推測能力をLLMが持つ可能性を提起しています。

図1は、任意のトークンで表される複雑なARCパターンを（ハイライト表示で）自動的に完了するLLMの能力を示しています。

これは、インコンテキストの分類に使用された場合、正解ラベルがランダムなまたは抽象的なラベルマッピングよりも優れたパフォーマンスを発揮することを前の研究が示していることと一致し、支持しています。ロボット工学や順序決定問題では、言葉で正確に推論するのが難しいパターンを含む幅広い問題が存在するため、彼らはARCでのパターン推論を支える能力が異なる抽象レベルで一般的なパターン操作を可能にすると仮定しています。たとえば、テーブルトップ上で物を空間的に再配置するための手法は、ランダムなトークンを使用して表現することができます（図2を参照）。別の例は、報酬関数に基づいた軌道の最適化のために、状態とアクションのトークンのシーケンスを増やすことです。

スタンフォード大学、Google DeepMind、TU Berlinの研究者は、この研究に対して2つの主な目標を持っています。1つ目は、LLMがすでに一定レベルの一般的なパターン操作を実行するために含んでいるゼロショットの能力を評価すること、2つ目は、これらの能力がロボット工学でどのように使用されるかを調査することです。これらの取り組みは、大量のロボットデータで事前トレーニングを行うことや、ダウンストリームタスクにファインチューニングできるロボットファウンデーションモデルを開発することとは直交しており、補完的なものです。これらのスキルは、特化したアルゴリズムを完全に置き換えるには十分ではありませんが、一般的なロボットモデルをトレーニングする際に重点を置くべき最も重要な領域を特定するのに役立つことができます。彼らの評価によれば、LLMはシーケンス変換、シーケンス完全性、またはシーケンス拡張の3つのカテゴリに分類されます（図2を参照）。

**図2：**事前トレーニングされたLLMは、抽象的なロボット工学および順序決定問題を反映した数値またはランダム（記号）トークンのシーケンスを認識し、完了することにより、最も基本的なタイプのユニバーサルパターンマシンとして振る舞うことができます。実験の結果は、LLMがある程度の範囲でシーケンス変換（たとえば、ダウンサンプルされた画像上の動力学モデリングと次状態予測のための空間的なシンボルの再配置に関する推論）、単純な関数の完了（たとえば、運動学的デモの推測）、またはリターン条件付きポリシーの改善のためのメタパターン（たとえば、CartPoleの安定化のための振動行動の発見）を学習できることを示しています。

まず、彼らはLLMがいくつかのトークンの不変性を持つ増加的な複雑さのシーケンス変換を一般化できることを実証し、これが空間思考を必要とするロボットアプリケーションで使用される可能性があることを示唆しています。次に、彼らはLLMのパターン補完能力を評価し、単純な関数（例えば正弦波）からのパターンの拡張に使用される可能性を示しています。これは、触覚デモンストレーションから拭き取り動作を延長したり、ホワイトボード上にパターンを作成したりするロボットの活動に使用される可能性があります。LLMは、外挿と文脈におけるシーケンス変換の組み合わせにより、基本的な種類のシーケンス改善を行うことができます。彼らは、報酬付きの軌道文脈とオンラインインタラクションを使用することで、LLMベースのエージェントが小さなグリッド内を移動し、安定化したCartPoleコントローラを見つけ、人間との相互作用に基づく「クリッカー」インセンティブトレーニングを使用して基本的な軌道を最適化する方法を示しています。彼らは、コード、ベンチマーク、および動画を公開しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

『AI論文によると、大規模な言語モデルの一般的なパターンマシンとしての異なるレベルの専門知識を説明します』

Was this article helpful?

「データ民主化：大企業が取り入れる5つの「全員向けデータ」戦略」

新たなディープ強化学習（DRL）フレームワークは、シミュレートされた環境で攻撃者に対応し、サイバー攻撃がエスカレートする前に95％をブロックすることができます

機械学習

PandasAIの紹介：GenAIを搭載したデータ分析ライブラリ

UCLAとCMUの研究者が、優れた中程度範囲の天気予報のためのスキルと信頼性のあるスケーラブルなトランスフォーマーニューラルネットワーク「ストーマー」を紹介しました

『Q-Starを超えて OpenAIのPPOによるAGIのブレイクスルーが可能』

「LangchainなしでPDFチャットボットを構築する方法」

カリフォルニア州での山火事との戦いにAIが役立つ方法

聴覚処理の解読：深層学習モデルが脳内の音声認識とどのように類似しているか