Learn more about Search Results この - Page 14

このOpenAIの研究では、DALL-E 3を紹介していますこのモデルは、より高度なプロンプトの追従機能を備えたテキストから画像への変換を革新しています

人工知能の中で、テキストから画像を生成するモデルの改善が注目を集めています。この分野で注目すべき存在であるDALL-E 3は、最近になってテキストの説明に基づいて連続した画像を生成するという非凡な能力で注目を浴びています。しかし、このシステムは空間認識、テキストのレンダリング、生成された画像の特異性の維持など、さまざまな課題に取り組んでいます。最新の研究では、合成キャプションと人間によって生成された正確なキャプションを組み合わせた新しいトレーニング手法を提案し、DALL-E 3の画像生成能力を向上させ、これらの課題に対処することを目指しています。 研究は、DALL-E 3の現在の機能の制約について述べ、空間的な関係を正確に理解し、複雑なテキストの詳細を忠実に再現することで苦労している点を強調しています。これらの課題は、テキストの説明を視覚的に矛盾のない、文脈に即した画像に翻訳する能力をモデルが大幅に阻害しています。この問題を緩和するため、OpenAIの研究チームは、モデル自体が生成する合成キャプションと人間の生成した正確なキャプションを組み合わせた包括的なトレーニング戦略を導入します。この多様なデータセットにモデルをさらすことにより、チームはDALL-E 3にテキストの文脈を微妙に理解させ、提供されたテキストのプロンプトに埋め込まれた微細なニュアンスを機敏に捉える画像の生成を促進しようとしています。 研究者たちは、彼らの提案した手法の基礎となる技術的な複雑さについて掘り下げ、多様な合成キャプションと正確なキャプションがモデルのトレーニングプロセスに与える重要な役割を強調しています。この包括的なアプローチにより、DALL-E 3は複雑な空間的な関係を見分け、生成された画像内のテキスト情報を正確にレンダリングする能力が向上します。チームは、提案手法の効果を検証するためにさまざまな実験と評価を実施し、DALL-E 3の画像生成の品質と忠実度における重要な改善を示しています。 さらに、この研究は、高度な言語モデルがキャプション作成プロセスの充実に寄与するという重要な役割を強調しています。GPT-4などの洗練された言語モデルは、DALL-E 3が処理するテキスト情報の品質と深さを向上させ、微妙で文脈に即した視覚的に魅力的な表現の生成を容易にします。 まとめると、提案されたトレーニング手法がテキストから画像を生成するモデルの将来的な進化における有望な意義を示しています。空間認識、テキストのレンダリング、特異性に関連する課題に効果的に取り組むことで、研究チームはAIによる画像生成の重要な進歩の可能性を実証しています。提案された戦略は、DALL-E 3のパフォーマンスを向上させるだけでなく、高度なテキストから画像を生成する技術の持続的な発展の基盤を築くことも可能です。

このAI論文は、検索エンジンに対して大規模な言語モデルが事実確認の効率性にどのように比較されるか、明らかにします

異なる大学の研究者たちは、言語モデル(LLM)と検索エンジンがファクトチェックにおいてどれほど効果的かを比較しています。LLMの説明は検索エンジンよりも効率的なファクトチェックを支援しますが、説明が間違っている場合でもユーザーはLLMに頼りがちです。対照情報を追加すると過度な依存が減少しますが、検索エンジンを大幅に上回る効果はありません。重大な状況では、誤ったAIの説明に依存することが深刻な結果をもたらす可能性があるため、LLMの説明は確認済みの文章の読解を代替する信頼性のないものにならないかもしれません。 彼らの研究は、言語モデルと検索エンジンをファクトチェックに用い、言語モデルの説明が効率を向上させる一方で誤った情報に依存する可能性があることを発見しています。重大な状況では、LLMの説明は文章の読解を代替することができない場合があります。別の研究では、ChatGPTの説明が確認作業を改善し、時間を節約する一方で、主張のインターネット検索を減少させることが示されています。 この研究は、LLMのファクトチェックにおける役割と効率を検索エンジンと比較しています。LLMの説明は効果的ですが、間違っている場合には過度な依存が生じます。対照的な説明は提案されていますが、検索エンジンを大きく上回る効果はありません。重大な状況では、誤ったAIの説明に依存することが深刻な結果をもたらす可能性があるため、LLMの説明は確認済みの文章の読解を代替する信頼性のないものになる可能性があります。 提案された手法は、80人の被験者を用いて言語モデルと検索エンジンをファクトチェックに適用し、言語モデルの説明は効率を向上させる一方で、ユーザーはそれらに過度に依存する傾向があることを調査しています。また、検索エンジンの結果と言語モデルの説明を組み合わせた効果についても調査しています。この研究では、正確さと確認時間を測定し、検索と説明がもたらす影響を評価しています。 言語モデルの説明は、根拠のない状態に比べてファクトチェックの正確さを向上させます。確認済みの文章も正確さを向上させます。言語モデルの説明と確認済みの文章の間にはほとんど正確さの違いがありませんが、説明の方が読みやすいです。正確さにおいては検索には及びません。言語モデルは正しくない主張を説得力を持って説明することができ、誤った判断につながる可能性があります。特に重大な状況では、確認済みの文章の読解を代替するために、LLMの説明に一任することは推奨されません。 結論として、LLMはファクトチェックの正確さを向上させる一方で、説明が誤っている場合には過度に依存したり正確な判断を下すリスクを伴います。LLMの説明を検索結果と組み合わせても追加の利点はありません。LLMの説明は読みやすいですが、虚偽の主張を説得力を持って説明することがあります。重大な状況では、LLMの説明にのみ依存することは望ましくありません。確認済みの文章の読解は正確なファクトチェックのために重要です。 この研究では、ユーザーのための証拠のカスタマイズ、検索と説明を戦略的に組み合わせる方法、説明または確認済みの文章を表示するタイミングを探索することを提案しています。同時に両方を表示する効果についても確認の正確さを通じて調査しています。また、特に重大な状況では言語モデルの説明への過度な依存のリスクを検証しています。確認済みの文章の読解に代わるこれらの説明の信頼性と正確性を向上させる方法を探究しています。

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しましたこの指令は様々な政府機関に要請し、…

このAI論文は、深層学習を用いて大規模な記録の神経活動を解読する人工知能フレームワーク、POYO-1を紹介しています

ジョージア工科大学、Mila、モントリオール大学、マギル大学の研究者らは、多様な大規模な神経記録を横断的にモデリングするためのトレーニングフレームワークとアーキテクチャを紹介しています。個々のスパイクをトークナイズして細かい時間的なニューラル活動をキャプチャし、クロスアテンションとPerceiverIOを骨子として使用します。7 つの非人間性霊長類のデータを使用して構築される大規模な複数セッションモデルには、27,000 個以上のニューラルユニットと100 時間以上の記録が含まれています。このモデルは新しいセッションに迅速に適応し、神経データ解析のスケーラブルなアプローチを示すさまざまなタスクでのフューショットパフォーマンスを可能にします。 彼らの研究では、トランスフォーマーを使用して多様な大規模な神経記録の神経集団ダイナミクスをモデル化するスケーラブルなフレームワークを紹介しています。以前のモデルとは異なり、このフレームワークは一連の固定セッションや単一のニューロンセットで操作するのではなく、さまざまな主体やデータソースのデータをトレーニングすることができます。PerceiverIOとクロスアテンション層を活用して、ニューラルイベントを効率的に表現し、新しいセッションでのフューショットパフォーマンスを可能にします。本研究は、トランスフォーマーの神経データ処理への潜在能力を示し、計算機能を向上させる効率的な実装を紹介しています。 機械学習の最近の進歩は、GPT のような大規模な事前トレーニング済みモデルのスケーリングの可能性を示しています。神経科学では、脳機能のより包括的な理解のために、さまざまなデータセット、実験、および被験者を結びつける基礎モデルが求められています。POYO は、さまざまな神経記録セッション間で効率的なトレーニングを実現し、対応するニューロンセットが不明な場合でも、さまざまな神経記録セッションを処理するためのフレームワークです。独自のトークナイゼーションスキームとPerceiverIOアーキテクチャを活用してニューラル活動をモデル化し、その移植性とセッション間の脳デコーディングの改善を示しています。 トークナイゼーションを使用して多様な記録にわたる神経活動のダイナミクスをモデル化し、時間の詳細をキャプチャし、クロスアテンションとPerceiverIOアーキテクチャを使用しています。広範な霊長類データセットでトレーニングされた大規模なマルチセッションモデルは、フューショット学習のための対応するニューロンのない新しいセッションに適応することができます。ローテーションポジションの埋め込みは、トランスフォーマーの注意メカニズムを強化します。このアプローチは神経活動に5ミリ秒のビニングを使用し、ベンチマークデータセットで詳細な結果を達成しています。 フレームワークは、NLB-Maze データセットの神経活動デコーディング効果を示すため、フレームワークを使用してR2値0.8952を達成しました。事前トレーニング済みモデルは、重みの変更なしで同じデータセットで競争力のある結果を提供し、その汎用性を示しています。フューショットパフォーマンスのための新しいセッションに迅速に適応する能力が示されました。大規模なマルチセッションモデルはさまざまなタスクで有望なパフォーマンスを示し、フレームワークの包括的な神経データ解析の潜在能力を強調しています。 結論として、神経集団デコーディングのための一体化かつスケーラブルなフレームワークは、フューショットパフォーマンスのための対応するニューロンのない新しいセッションへの迅速な適応能力を提供し、さまざまなタスクで強力なパフォーマンスを実現します。非人間霊長類のデータを用いてトレーニングされた大規模なマルチセッションモデルは、包括的な神経データ解析のフレームワークの潜在能力を示しています。このアプローチは、神経データ解析の進化を促進するための強力なツールを提供し、スケールでのトレーニングを可能にし、神経集団ダイナミクスに関する洞察を深めることができます。

この中国のAI研究は、ベートーヴェン、クレオパトラ女王、ユリウス・カエサルなど特定の人物として振る舞うようにLLMを教えるCharacter-LLMを紹介しています

Character-LLMは、プロフィールの編集とモデルのトレーニングを行うことによって特定の個人をシミュレートするためのトレーニング可能なエージェントです。これにより、彼らのユニークな経験を再現し、個人のレプリカを作成することができます。テストプレイグラウンドでの評価では、これらの訓練されたエージェントにインタビューを行い、キャラクターや経験を記憶する能力を評価します。このアプローチは、パーソナライズされたデジタルシミュラクラの作成を探求しており、AIによるキャラクターシミュレーションと人間の経験理解の重要な進展を示しています。 中国の研究者チームは、Character-LLMを使用してキャラクターシミュラクラとしてエージェントを訓練する概念を提案しました。彼らはExperience Reconstruction、Upload、Protective Experiencesというトレーニングフレームワークを概説し、これらのシミュラクラをLLMを使用してトレーニングする方法を示しています。彼らのアプローチは、ベートーヴェン、クレオパトラ女王、ユリウス・シーザーなどの特定の歴史的人物をシミュレートするためにプロフィールの編集とモデルのトレーニングを重視しています。効果は、トレーニングされたエージェントがインタビューを受けてキャラクターや経験を記憶する能力を評価するテストプレイグラウンドで評価されます。実験結果は、人間の人格をシミュレートするための将来の発展に対する示唆を提供しています。 ChatGPTやGPT-4などのLLMは、日常生活やより深い経験のシミュレートに使用されます。シンプルなLLMのプロンプトの制約に対処するために、研究者はCharacter-LLMを導入します。これは、実際の経験と感情から学習する役割演技のためのトレーニング可能なエージェントです。ベートーヴェン、クレオパトラ女王、ユリウス・シーザーなどの特定の歴史的人物の経験が収集され、キャラクター-LLMをトレーニングするために使用されます。彼らのアプローチは、社会科学、NPC開発、労働削減などに潜在的な応用があります。評価は、キャラクターの記憶能力を評価するためのテストプレイグラウンドで行われます。 Character-LLMは、Experience Reconstruction、Upload、Protective Experiencesというトレーニングフレームワークを用いて、ベートーヴェン、クレオパトラ女王、ユリウス・シーザーなどのキャラクターの経験を形式化することに焦点を当てています。エージェントは、編集されたプロフィールと感情状態を持つパーソナルシミュラクラを作成するために、大規模な言語モデルを使用してトレーニングされます。評価は、テストプレイグラウンドでのインタビューによってキャラクターの記憶を評価します。彼らの研究は、トレーニング方法とフレームワークの具体的な技術的な詳細がさらに必要ですが、貴重な洞察を提供しています。 Character-LLMは、ベースラインモデルと比較して、優れたパーソナリティ、記憶、幻覚、および安定性のパフォーマンスを示しています。キャラクター-LLMは、規模は小さいものの、ChatGPTという大規模なベースラインと同等のパフォーマンスを達成しています。彼らのトレーニング可能なエージェントは、より鮮明な応答を提供し、特定の過去の経験を思い出し、不自然な質問を拒否します。応答の長さは結果に影響を与え、より短くてより自然なテキストを好む傾向があります。ただし、キャラクターの価値反映は依然として課題です。実験結果は、人間のシミュラクラ開発の進展に貴重な洞察を提供します。 まとめると、Character-LLMは、特定の個人をシミュレートするための効果的なトレーニング可能なエージェントであり、パーソナリティ、記憶、幻覚、安定性の面で印象的なパフォーマンスを発揮します。Character-LLMは、ChatGPTという強力なベースラインと比較しても優れた結果を示しています。これらのエージェントは、鮮明な応答を提供し、特定の経験を思い出し、不自然なクエリを拒否します。その結果は、人間のシミュラクラ開発の進展に貴重な洞察を提供します。将来の研究は、現実の人々と対話し、より大きな力を持ち、強力な人間のつながりを育むためのさらに優れたエージェントの作成に焦点を当てています。

このAI論文は、大規模な言語モデルを最適化する秘訣を明らかにします:報酬のバランスと過剰最適化の防止

UC Berkeley、UCL、CMU、Google Deepmindの研究者チームは、複数の単純な報酬モデルから導かれた合成報酬モデルを使用して、大規模な言語モデルの最適化の課題に取り組んでいます。これらのハイブリッドモデルは、成分モデルの適切な重み付けの支援を必要とすることが多く、報酬が高いほど人間の評価が悪くなる過度の最適化が起こります。彼らの方法は、制約付き強化学習を使用して、エージェントが各成分モデルの有用性の閾値を超えないようにする解決策を提案しています。 この研究は、制約を強化学習に統合するための広範な研究の歴史を参照しています。Borkar、Padakandla、Cheung、Lecarpentierなどの著者の研究を挙げています。また、報酬関数の非定常性に取り組む重要性を強調し、Moskovitz、O’Donoghue、Tarbouriechの研究を引用しています。さらに、正則化ポリシーオプティマイゼーションの使用についても議論しています。 LLM(大規模言語モデル)は自然言語処理において優れた性能を発揮しますが、安全な展開や人間の好みとの整合性に問題があります。人間のフィードバックからの強化学習(RLHF)は、人間の選択を模倣した報酬モデルを使用してLLMを適応させます。しかし、報酬モデルの過度の最適化はテキストの品質低下につながることがあります。彼らの研究では、過度の最適化を解決するための合成報酬モデルを提案し、プロキシポイントを特定し、制約付き最適化を使用しています。動的な重み付けは、各報酬モデルが学習プロセスに与える影響を制御します。 この分析では、Lagrange乗数を使用して合成報酬モデルにおける過度の最適化を管理する制約付き強化学習を紹介しています。成分報酬モデルに制約を課し、効果的な人間評価範囲内に保ちます。プロキシポイントを特定し、報酬モデルの過剰使用を防ぐための適応的な勾配フリーな最適化手法が提示されています。KL divergenceを含む、さまざまなタスク報酬および制約の閾値の定式化も考慮されています。 彼らのアプローチは、合成報酬モデルにおける過度の最適化に関する初めての研究を行い、相関の重要性が過度の最適化ポイントに与える影響を明らかにしています。報酬モデルの閾値を超えることを防ぐために、適応的な勾配フリーな最適化手法が使用されています。制約付き強化学習の実装には、PPO-SATやAll-PPOを含むPPOアルゴリズムが議論されています。さまざまなタスク報酬および制約の閾値の定式化をカバーする詳細な疑似コードも提供されています。 この研究は、言語品質評価に影響を与える合成報酬モデルの最適化の課題を解決することに焦点を当てています。過度の最適化ポイントを特定し、最適化するために適応的な勾配フリーな最適化手法を使用しています。PPO-SATやAll-PPOなどのPPOアルゴリズムの実装について探究し、成分報酬モデル間の適切な重み付けと相関の考慮の重要性を強調しています。 今後の研究では、ReLOADなどの信頼性のある手法を適用して、合成報酬モデルにおける過度の最適化に取り組むことが検討されるべきです。確定的な最適ポリシーのない場合にモデルの出力問題を防ぐためにCMDPの形式を利用することの有用性を探求することが重要です。さまざまなドメインや複雑な合成報酬モデルを対象とした幅広いテストが必要です。代替の強化学習手法の調査や、重み付け戦略や相関指標が提案手法の性能に与える影響を評価することは、さらなる進展に重要です。

このAIの論文は、純粋なゼロショットの設定で、タスクの適応と未知のタスクや環境への一般化に優れたCLIN(Continuous Learning Language Agent)を紹介しています

人工知能の持続的な進化により、繊細な言語ベースのエージェントが複雑なタスクを訓練や明示的なデモなしで実行できるようになりました。しかし、その卓越したゼロショット能力にも関わらず、これらのエージェントは特に異なる環境やタスクにおいて持続的にパフォーマンスを向上させることに制約がありました。この課題に取り組むため、最近の研究チームはCLIN(Continually Learning Language Agent)という画期的なアーキテクチャを提案しました。これにより、言語エージェントは頻繁なパラメータの更新や強化学習の必要なく、複数の試行でパフォーマンスを適応・改善することが可能となります。 既存の言語エージェントの状況は、主にゼロショット学習技術を通じた特定のタスクでの熟練度を達成することに焦点を当ててきました。これらの方法は、様々なコマンドの理解と実行において印象的な能力を示してきましたが、大幅な変更やトレーニングなしで新しいタスクや環境に適応することが必要となることが多々ありました。この制約に対応するため、CLINアーキテクチャは、原因の抽象化の獲得と利用を継続的に強調するダイナミックなテキストメモリシステムを導入し、エージェントが時間とともに学習しパフォーマンスを向上させることができるようになりました。 CLINのアーキテクチャは、現在のタスクと過去の経験に基づいてゴールを生成するコントローラ、これらのゴールを具体的な手順に変換するエグゼキュータ、および各試行後に定期的に更新されるメモリシステムなど、一連の相互接続されたコンポーネントを中心に設計されています。CLINのユニークなメモリ構造は、必要な関係と非貢献関係を確立することに焦点を当てており、抽象的な学習における信頼度を評価する「may」や「should」といった言語の不確実性尺度を補完しています。 CLINの最も特徴的な要素は、様々なタスクと環境に対して迅速な適応と効率的な汎化が可能であるという点です。エージェントのメモリシステムにより、以前の試行から有益な知見を抽出し、後続の試行においてそのパフォーマンスと意思決定プロセスを最適化することができます。その結果、CLINは従来の最先端の言語エージェントや強化学習モデルのパフォーマンスを上回り、持続的な学習能力を持つ言語ベースのエージェントの開発における重要なマイルストーンを達成しました。 この研究の結果は、言語ベースのエージェントの既存の制約、特に異なるタスクと環境への適応性に対処するCLINの重要な可能性を示しています。継続的な学習や改善を可能にするメモリシステムを組み込むことで、CLINは明示的なデモや広範なパラメータの更新なしに効率的な問題解決と意思決定ができる傑出した能力を示しています。 全体として、CLINの登場は言語ベースのエージェントの重要な進展であり、持続的な改善と適応性を備えたインテリジェントシステムの開発に向けた有望な展望を提供しています。革新的なアーキテクチャとダイナミックなメモリシステムにより、CLINは次世代の言語エージェントの新たな基準を設定し、様々な領域でより洗練されて適応性のある人工知能アプリケーションへの道を開拓しています。

このAI論文では、「ビデオ言語計画(VLP)」という新しい人工知能アプローチを提案していますこのアプローチは、ビジョン言語モデルとテキストからビデオへのダイナミクスを組み合わせたツリーサーチ手法で構成されています

人工知能の進化により、生成モデルは急速に成長しています。物理環境と知的に相互作用するアイデアは、低レベルの基礎的なダイナミクスと高レベルの意味的な抽象化の2つの異なるレベルでの計画の重要性を強調しています。これらの2つのレイヤーは、実際の世界での活動を適切に制御するためには、ロボットシステムにとって不可欠です。 計画問題をこれらの2つのレイヤーに分割する概念は、ロボット工学では以前から認識されています。その結果、動作とタスクの計画を組み合わせ、複雑な操作作業の制御ルールを特定することを含む多くの戦略が開発されてきました。これらの方法は、作業の目標と現実の環境のダイナミクスを考慮に入れた計画を生成することを目的としています。LLMについて話すと、これらのモデルは記号的なジョブの説明を使用して高レベルの計画を作成することができますが、そのような計画を実装することには問題があります。形状、物理、制約など、タスクの具体的な部分に関しては、推論することができません。 最近の研究では、Google Deepmind、MIT、およびUC Berkeleyの研究者チームが、テキストからビデオやビジョン言語モデル(VLM)を統合することでこれらの欠点を克服する提案を行っています。両モデルの利点を組み合わせたこの統合は、Video Language Planning(VLP)として紹介されています。VLPは、長期的で複雑な活動のための視覚的な計画を容易にすることを目的として導入されました。VLPは、インターネットデータ上で広範な事前トレーニングを受けた大規模な生成モデルの最近の進展を活用しています。VLPの主な目標は、言語と視覚のドメインの両方で理解と長いアクションシーケンスを必要とするジョブを計画することを容易にすることです。これらのジョブには、単純なオブジェクトの配置から複雑なロボットシステムの操作まで、さまざまなものが含まれます。 VLPの基礎は、2つの主要部分からなるツリーサーチプロセスです。 ビジョン言語モデル:これらのモデルは値関数とポリシーの両方の役割を果たし、計画の作成と評価をサポートします。タスクの説明と利用可能な視覚情報を理解した後、作業を完了するための次のアクションを提案することができます。 テキストからビデオへのモデル:これらのモデルはダイナミクスモデルとしての役割を果たし、特定の意思決定がどのような影響を与えるかを予測する能力を持っています。これらの予測は、ビジョン言語モデルが示唆する行動から導かれる可能性のある結果を予測します。 VLPでは、長期的なタスクの指示と現在の視覚的観察が主な入力として使用されます。VLPの結果は、言語と視覚の特徴を組み合わせて最終目標を達成するための段階的な指示を提供する完全かつ詳細なビデオ計画です。これにより、書かれた作業の説明と視覚的理解とのギャップを埋めるのに役立ちます。 VLPは、バイアームの器用な操作や複数オブジェクトの再配置など、さまざまな活動を行うことができます。この柔軟性は、アプローチの幅広い可能性を示しています。実際のロボットシステムは、生成されたビデオの設計図を実際に実装することができます。目標指向のルールは、仮想計画を実際のロボットの動作に変換するのに役立ちます。これらの規則により、ロボットは中間フレームごとのビデオ計画を行動のガイドとして使用しながら、ステップバイステップでタスクを実行することができます。 VLPを使用した実験を以前の手法と比較すると、長期的なタスクの成功率の重要な向上が見られました。これらの調査は、3つの異なるハードウェアプラットフォームを使用した実際のロボットおよびシミュレーション環境で実施されました。

このチューリング賞を受賞した研究者は、伝説的な学術顧問になるまでの軌跡

理論的コンピュータ科学者のマヌエル・ブルムは、多くの修士課程の学生を有望なキャリアに導いてきました

このAI研究では、「RAFA」という、証明可能なサンプル効率を持つ独立型LLMエージェントのための原則的な人工知能フレームワークを紹介します

LLMの推論能力は優れていますが、それらの能力を実践的な状況で適用するためには改善が必要です。特に、外部の世界との最小限のインタラクション(たとえば内部の推論方法により)で課題を確実に達成する方法は未解決の問題です。 Northwestern University、清華大学、香港中文大学の共同研究によると、推論と行動を調整するために、「将来のための理由、今のための行動」(RAFA)と呼ばれる道徳的なフレームワークが提案されました。このフレームワークは、検証可能な後悔保証を提供します。具体的には、長期的な軌跡プランナー(「将来のための理由」)を作成し、推論のためのメモリバッファのプロンプトから学習します。 ベイジアン適応型MDPパラダイムにおいて、LLMとの推論と行動について形式的に説明されています。各ステージでは、LLMエージェントは計画された軌跡の最初のアクション(「今のための行動」)を実行し、収集されたフィードバックをメモリバッファに保存し、現在の状態に基づいて将来の軌跡を再計画するために再び推論ルーチンを呼び出します。 ベイジアン適応型マルコフ決定過程(MDP)における学習と計画は、推論をLLMにおいてMDPとして表現するために使用されます。同様に、LLMに対してメモリバッファを参照して未知の環境についてより正確な事後分布を学習し、ある価値関数を最大化する一連のアクションを設計するように指示します。外部環境の状態が変化すると、LLMエージェントは再び推論ルーチンを呼び出して新しい行動計画を立てます。学習と計画の一貫性を保つために、研究者はより新しい履歴データを使用するかどうかを判断するために切り替え条件を使用します。 RAFAのパフォーマンスを評価するために、Game of 24、ALFWorld、BlocksWorld、Tic-Tac-Toeなどのテキストベースのベンチマークがあります。RAFAは、言語モデルを使用してRL/PLのタスクを実行するAIシステムです。主なポイントは以下の通りです。 ゲーム24では、RAFAは4つの異なる自然数を足し引きして24を得る方法を決定します。アルゴリズムは最新の式を追跡し、この目標に到達するための次の手順を生成します。サンプル効率性に関して、RAFAは非常に優れたパフォーマンスを発揮します。 ALFWorldは、使用者が具現化されたエージェントを使用して家事のシミュレーションを実行できる仮想世界です。RAFAは、AdaPlanner、ReAct、Reflexionなどの競合フレームワークよりも優れた結果を達成します。 BlocksWorldでは、プレイヤーはブロックを使用して構造物を作ることが求められます。Vicuna、RAP、CoTなどの他のモデルと比較して、RAFAの成功率はかなり高いです。 RAFAはTic-Tac-Toeのゲームで「O」として働き、言語モデルが「X」として働きます。 「O」のペナルティは、RAFAが一部の設定で言語モデルと競い合い、時にはそれを上回ることを防ぎません。研究者は、異なる計画の深さ(B = 3またはB = 4)を選択することでサンプル効率性を改善または低下させる可能性があると考えています。 結論として、RAFAはさまざまな状況やタスクで優れた柔軟なアルゴリズムであり、驚異的なサンプル効率性を示し、他の既存のフレームワークをしばしば上回ります。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us