Search Results エージェント

このAI研究は、FireActを提案しますこれは、複数のタスクとエージェントの手法からの軌跡を使用して、言語モデルを微調整するための新しい人工知能の手法です

ファインチューニングされた言語モデルは、しばしば言語エージェントを作成する際に軽視され、特にGoogle検索APIを使用して質疑応答の能力を高めることに焦点を当てています。System2 Research、ケンブリッジ大学、モナッシュ大学、およびプリンストン大学の研究者たちは、ファインチューニングされたバックボーン言語モデルがこれらのエージェントのパフォーマンスを一貫して向上させることを示しています。彼らの研究では、複数のタスクや促進手法からの軌道を組み込んだFineActと呼ばれるファインチューニング手法を導入し、多様なファインチューニングデータが言語エージェントの洗練において重要であることを強調しています。彼らの研究は、言語エージェントとファインチューニングされた事前学習言語モデルの交差点を探っています。先行研究では、言語エージェントとファインチューニングが別々に研究されてきましたが、この研究はそのギャップを埋めるものです。FineActは、言語エージェントのためのファインチューニング手法であり、これらのエージェントにおいて言語モデルのファインチューニングがもたらす利点と結果を系統的に調査しています。彼らの研究には、スケーリング効果、頑健性、汎化性、効率性、およびコストの影響などが含まれ、この新興分野に価値ある洞察を提供しています。彼らの手法は、これらのエージェントのための言語モデル（LMs）のファインチューニングにおけるより効果的な言語エージェントの必要性に対応しています。既存の言語エージェントは、基本的なLMと限られた数の促進技術に頼っており、パフォーマンスと頑健性の制約があります。実験結果は、LMのファインチューニングがエージェントのパフォーマンスを大幅に高め、推論時間を短縮し、頑健性を向上させることを示しており、実世界の応用に向けた有望な手段となっています。彼らの研究は、Google検索APIを使用した質問応答（QA）での言語エージェントのLMのファインチューニングを探求しています。実験は、LM、データサイズ、ファインチューニング手法に焦点を当て、HotpotQA EMなどの指標を使用してパフォーマンスを評価しています。彼らのアプローチは、従来の促進手法と比べてパフォーマンス、効率性、頑健性、一般化性の向上の利点を示しています。言語エージェントのLMのファインチューニングによって、HotpotQAパフォーマンスがLlama2-7BおよびGPT-4からの500個のエージェント軌跡を使用して77%向上します。 CoTメソッドは回答の品質を向上させます。混合エージェントメソッドはベースラインの範囲と一致してパフォーマンスを一貫して向上させます。ファインチューニングにより、正確な回答と全体的な回答の品質が向上し、EMスコアとF1スコアに反映された精度が向上します。ただし、F1スコアは4エポックを超えて段階的に減少し、長期的なファインチューニングでは収益の減少が示唆されます。 CoTメソッドの統合によって回答の品質がさらに向上します。ファインチューニングされた複数のタスク軌跡とプロンプトを用いたFireActアプローチは、エージェントのパフォーマンスをさらに向上させます。製品化モデルの固定された一連のタスク解決軌跡、ツールの過剰使用、および逸脱回復の課題など、既存のLMだけに頼る言語エージェントは制約があります。キャリブレーションやメタ論理に関する将来の研究は、ツール使用と反省の課題に対処することでエージェントの設計を改善することができます。 FireActから生じる研究の疑問は、異なるタスク、グラウンディング設定、およびドメインにおける言語エージェントのLMのファインチューニングをさらに拡大することです。APIツールの使用、ウェブの探索、および実世界での統合を網羅した調査が必要です。エージェントのパフォーマンス向上のためには、さまざまなファインチューニングデータソースと技術の探求が重要です。キャリブレーションとメタ論理がエージェントの設計とツールの使用と軌道の逸脱の管理能力に与える影響を取り組むべきです。最後に、拡張性、頑健性、効率性、およびコストの影響の評価には包括的な研究が必要です。

オートジェン（AutoGen）は驚くべきものです：AIエージェントを作成するための最先端フレームワークとなる4つの機能

「AIエージェントの協力により、現在の大規模言語モデルから得られる最良の結果を得ることができます注 AIエージェントは広範なトピックですこの記事では、AIエージェントと言及する際には、次のようなものを指しています...」

スタンフォード大学の研究者たちは、MLAgentBenchを提案しました：AI研究エージェントのベンチマーキングのためのマシンラーニングタスクのスイート

人間の科学者は未知の深みを探索し、さまざまな未確定の選択を要する発見をすることができます。科学的な知識に裏打ちされた状態で、人間の研究者は未知の領域を探索し、その過程で画期的な発見をします。今では、同様の能力を持つAI研究エージェントを構築することが可能かどうかが研究されています。オープンエンドの意思決定と環境との自由な相互作用は、パフォーマンス評価に困難をもたらします。これらのプロセスは時間がかかる、リソースを消費する、量化が難しいといった特徴を持っています。自由な形式の意思決定能力を持つAI研究エージェントを評価するために、スタンフォード大学の研究者らはMLAgentBenchを提案しています。MLAgentBenchの核となるアイデアは、よく範囲のある実行可能な研究課題において、研究エージェントを自動的に評価するための一般的なフレームワークを提供することです。具体的には、各研究課題にはタスクの説明と必要なファイルのリストが与えられます。これらを持つ研究エージェントは、読み書きやコード実行などのタスクを人間の研究者と同様に実行することができます。エージェントの行動と作業スペースの仮間スナップショットは、評価のための相互作用トレースの一部として収集されます。研究チームは、研究エージェントの以下の3つの観点で評価しています。1) 目標達成能力（成功率や平均改善量など）、2) 推論と研究プロセス（結果の達成方法やミス）、3) 効率性（目標達成に必要な時間や努力など）。チームは、さまざまな分野をカバーする15のMLエンジニアリングプロジェクトのコレクションを用意し、実行が簡単でコストが低い実験を行いました。エージェントが有効な提出を行えるように、これらの活動のいくつかのための単純な初期プログラムを提供しています。例えば、CIFAR10データセットで畳み込みニューラルネットワーク（CNN）モデルのパフォーマンスを10％以上向上させるといったチャレンジがあります。研究エージェントの汎化能力をテストするために、CIFAR10などのよく知られたデータセットだけでなく、数か月前のKaggleチャレンジや新しい研究データセットも含まれています。彼らの長期目標は、現在のタスクコレクションにさまざまな分野の科学的な研究課題を含めることです。最近の大規模な言語モデル（LLM）に基づく生成エージェントの進化を考慮して、チームは簡単なLLMベースの研究エージェントを設計しました。このエージェントは研究計画を自動的に作成し、スクリプトを読み書きし、実験を行い、結果を解釈し、次の実験に進むことができます。テキスト以外の行動やリアクションからもわかるように、LLMは日常的な常識から特定の科学領域まで幅広い前提知識を持ち、優れた推論とツール使用能力を持っています。高いレベルでは、利用可能な情報や前のステップに基づいて自動的に生成されるプロンプトを使って次のアクションをLLMに尋ねるだけです。このプロンプトのデザインは、目標達成のための他のLLMベースの生成エージェントの作成方法（推論、反省、ステップバイステップの計画、研究ログの管理など）から大いに影響を受けています。チームはまた、AI研究エージェントの信頼性と正確性を高めるために、階層的な行動と事実チェックのステージを使用しています。MLAgentBenchでAI研究エージェントをテストした結果、GPT-4を基にして高い解釈可能性の動的な研究計画を作成し、多くのタスクで優れたMLモデルを構築できることがわかりましたが、いくつかの欠点もまだあります。例えば、ogbn-arxivデータセット上でのモデルの改良など、確立されたタスクでは基準予測に対して平均48.18％の改善を達成しています。ただし、チームはKaggleチャレンジやBabyLMに対して研究エージェントの成功率が0〜30％に過ぎないことに注目しています。その後、他の変更が加えられたエージェントとの比較で研究エージェントのパフォーマンスを評価しました。結果は、記憶ストリームを継続することが単純なタスクのパフォーマンスを阻害する可能性があることを示しています。これは、それが気を散らされる要因となり、複雑な変更を探求するエージェントを奨励しているためかもしれません。

ソフトウェア開発のパラダイムシフト：GPTConsoleの人工知能AIエージェントが新たな地平を開く

変化が唯一の定数である業界で、GPTConsoleは革新的な能力を持つ3つのAIエージェントを導入しました。先頭に立つのはPixieで、スクラッチから完全なアプリケーションを構築することができるAIエージェントです。Pixieと並んで、2つの他のエージェントがいます。開発者がコードに関連するクエリを持つ際、まるでStack Overflowのスレッドで知識のある同僚に相談しているかのように開発者を支援するために設計されたChipと、精明なソーシャルメディアマネージャーであるBirdです。これらのエージェントは、フルスタック開発者の役割を補完するだけでなく、その機能の一部が完全に自動化される未来を予示しています。 Pixieはただのコードジェネレーターではありません。それはニーズを理解し、プロジェクトを構造化し、効率的にReactJSのコードを生成するAI駆動のフルスタック開発者です。高度なアルゴリズムと抽象構文木（AST）を活用して、新しいコードを既存のアーキテクチャにシームレスに統合します。それにより、時間とコストを大幅に削減します。これは中小企業、個人事業主、開発のオーバーヘッドに悩む人々にとって画期的な変革です。 Pixieを使用してReactJSアプリを生成またはアップデートするための5つの簡単な手順 Pixieの広範な機能についてより深く掘り下げる前に、始めるためのクイックガイドをご覧ください：ステップ1：自分のGPTConsoleアカウントを作成するこちらのGPTConsoleのウェブサイトでアカウントを登録してください。Pixieにアクセスできるようになります。ステップ2：GPTConsoleをインストールするターミナルで`yarn global add gpt-console`または`npm i gpt-console -g`を実行してください。また、nodeのバージョンが19.2.0より上であることを確認してください。ステップ3：ログインして初期化するターミナルを開き、`gpt-console`を実行してログインしてください。利用可能なエージェントの中にPixieが表示されます。ステップ4：Reactアプリを生成する `pixie start “I need a landing…

ウェイモのMotionLMを紹介します：最新型のマルチエージェントモーション予測アプローチで、大規模言語モデル（LLM）が自動車の運転をサポートできるようにする可能性のあるものです

オートリグレッション言語モデルは、あらかじめ定義された文法や構文解析の概念を必要とせずに、文章内の次のサブワードを予測するのに優れています。この方法は、音声や画像の生成などの連続データドメインにも適用され、データが言語モデルの語彙と同様に離散的なトークンで表現されます。シーケンスモデルは、振る舞いなどの複雑で動的な文脈での使用に興味を引くため、その使いやすさから注目されています。道路利用者は、行動と応答を交換するため、運転中に連続的な会話の参加者と比較されます。疑問は、同様のシーケンスモデルを使用して、言語モデルが複雑な言語分布を捉えるのと同様に、道路エージェントの振る舞いを予測するために使用できるかどうかです。エージェントの振る舞いの結合分布を独立したエージェントごとの周辺分布に分解することは、道路エージェントの振る舞いを予測するための人気のある戦略でした。この方向への進展があるにもかかわらず、これらの周辺予測には制約があります。なぜなら、複数のエージェントの将来の行動がお互いにどのように影響を受けるかを考慮に入れていないため、予測できない場面レベルの予測が生じる可能性があるからです。これらの問題に対処するため、Waymoの研究者チームはMotionLMを導入しました。これは、自律走行車の安全な計画において重要な要素である道路エージェントの将来の振る舞いを予測するためのユニークなアプローチです。MotionLMの主なアイデアは、複数の道路エージェントの動きの予測の問題を言語モデリングの作業としてアプローチすることです。これは、道路エージェントの行動が言語であるかのように予測課題を構築し、フレーズを作成しているかのようにフレーム化します。 MotionLMは、他の既存の方法とは異なり、アンカーや複雑な潜在変数の最適化手法を使用しないでこれを実現しています。このモデルは、運動トークンのシーケンスを正確に予測する平均ログ確率を最大化する目標を持つ単純な言語モデリング手法を採用しています。モデルはシンプルであり、トレーニングも容易です。多くの既存の手法では、個別のエージェントの軌跡を別々に生成し、その後エージェント間の相互作用を評価する二段階の手順を使用しています。一方、MotionLMは、複数のアクターの将来の行動について直接的に結合分布を構築するための単一のオートリグレッシブデコーディング手法を使用します。この相互作用モデリングの統合は、より効果的でシームレスです。MotionLMの時系列的な因果関係の分割作用により、時間的に因果関連性のある条件付きロールアウトも可能です。イベント間の因果関係を考慮して、将来のエージェントの振る舞いに関する予測が行われるため、その現実性と正確性が高まります。評価では、MotionLMはWaymo Open Motion Datasetに対してテストされた際に大きな成果を上げました。インタラクティブなチャレンジにおいて他のアプローチよりも優れたパフォーマンスを示し、困難な状況下で道路エージェントの行動を予測するための他の手法よりも優れていることが示されました。結論として、MotionLMは自動車のマルチエージェントの動きの予測において画期的なアプローチであり、この分野で非常に有益な進歩です。

「LangChainとOpenAI GPTを使用して初めてのAIエージェントを構築する方法」

「この分野は新しいですが、既にAutoGPT、HuggingGPT、MetaGPT、そしてMicrosoftのAutoGenなど、多くの素晴らしいプロジェクトが見られましたそしてこれはまだ始まったばかりです！ですので、この記事では...」

驚愕のブレイクスルー：オープンエンドAIエージェントバルジャーが自律的に「マインクラフト」をプレイ

NVIDIAシニアAI科学者ジム・ファンにとって、ビデオゲームのMinecraftはオープンエンドのAIエージェントの研究において「完璧な原始スープ」となりました。最新のAI Podcastエピソードでは、ホストのノア・クラビッツが、大規模な言語モデルを使用してAIエージェントを作成する方法についてファンと対談しました。具体的には、Chat GPT-4を使用して構築されたAIボットであるVoyagerを作成するために使用しています。このVoyagerは、自律的にMinecraftをプレイすることができます。ファンによれば、AIエージェントは「積極的に行動を起こし、その後世界を知覚し、行動の結果を見て、自己を改善する」という特性を持っています。多くの現在のAIエージェントは、ゲームをできるだけ早くクリアするか、質問に答えるという特定の目標を達成するようにプログラムされています。彼らは特定の出力を目指して自律的に作業することができますが、より広範な意思決定の機構を欠いています。ファンは、「任意の自然言語のプロンプトによって、オープンエンドで創造的なことをする真にオープンエンドのエージェント」を持つことは可能かどうか疑問に思いました。しかし、この可能性をテストするための柔軟なプレイグラウンドが必要でした。彼は言います。「だから、私たちはMinecraftがオープンエンドのエージェントが出現するためのほぼ完璧な原始スープであることに気付いたのです。なぜなら、それは環境を非常にうまく設定しているからです」と。結局のところ、Minecraftはプレイヤーに生き残り、自由に探索するという具体的な目標を設定していません。それがファンのプロジェクトであるMineDojoの出発点となり、最終的にAIボットのVoyagerの作成につながりました。ファンは説明します。「Voyagerは、Chat GPT-4のパワーを活用してJavascriptでコードを書き、ゲーム内で実行します。GPT-4は出力を見て、JavaScriptのエラーや環境からのフィードバックがあれば、自己反映を行い、コードをデバッグしようとします」。このボットは失敗から学び、正しく実装されたプログラムをスキルライブラリに保存して将来の利用のために保持し、「生涯学習」を可能にします。ゲーム内では、Voyagerは必要に応じて環境に基づいて自律的に数時間探索を行い、モンスターと戦い、食べ物を見つけるためのスキルを開発しています。ファンは言います。「これらの行動はすべて、Voyagerのセットアップ、スキルライブラリ、およびコーディングメカニズムから発生したものです。これらの行動のいずれも事前にプログラムされていませんでした」。彼はその後、LLMの台頭と軌跡について一般的に話しました。彼はソフトウェア、ゲーム、ロボット工学などでの強力な応用と、AIの安全性に関するますます重要な議論を予想しています。ファンは、LLMに関与して働きたいと思っている人々に対して、「何かをやってみる」と勧めています。オンラインリソースを使用したり、初心者向けのCPUベースのAIモデルを試したりすることを意味します。 The AI PodcastNVIDIAのジム・ファンが大規模な言語モデルとその産業への影響について語る – Ep. 204 おすすめ記事 Jules…

The AI Podcast

「ウィキペディアの知識を持つエージェントを備えたLLaMa 2を作成する」

大規模言語モデル（LLMs）は、AIの最新トレンドの一つですこれらは、人間との会話を行う能力を含む、印象的なテキスト生成能力を示しています...

「読むべき創造的エージェント研究論文」

見逃せないエキサイティングな分野に関する研究論文

Artificial Intelligence

You.comは、複雑な数学や科学の質問に対してより正確な回答を提供するためのコード実行機能を備えたAIエージェント、YouAgentをリリースしました

人工知能の急速に進化する風景の中で、長い言語モデル（LLM）は、インターネット上での学習と創造を変革したことは間違いありません。彼らは広範な対話的な回答を提供し、さまざまな質問に答えることができます。しかし、彼らはいくつかの制限を抱えています。彼らは最新の情報について追いつくのが難しく、しばしば誤った情報を生成し、数学、科学、論理などの複雑な主題についての推論にも課題があります。これらの欠点により、特にSTEM分野で正確かつ信頼性の高い情報を提供するためのギャップが生まれました。これらの課題に対応するために、You.comは2022年に先駆者として登場し、LLMの機能を活用してインターネットにアクセスし、参照するためのコンシューマープロダクトを発売しました。これにより、回答が包括的で最新の情報で、引用文献も含まれるようになりました。この成功を基に、2023年の春には、You.comはマルチモーダルなチャット出力を導入し、プロット、チャート、アプリなどのインタラクティブな視覚的要素を提供することでユーザー体験を向上させ、特にリアルタイムのトピックにおいてテキストベースの応答に対する信頼性の高い代替手段を提供しました。そして、You.comは画期的なYouAgentを紹介し、AIエージェントの概念を新たなレベルに引き上げました。従来のLLMとは異なり、YouAgentは情報を処理するだけでなく、自身の環境内でアクションを実行することもできます。これは、Pythonコードを実行するコンピューティング環境によって可能にされています。LLMはコードを記述し実行することができ、複雑なSTEM問題の解決の可能性を広げています。さらに、YouAgentのマルチステップの推論プロセスと組み合わされたこのコードインタプリタにより、YouAgentは無類の正確さで複雑なSTEMクエリに取り組むことができます。 YouAgentの使用は簡単です。ユーザーはAIチャットインターフェースで「@agent」または「/agent」とクエリを開始することができます。これにより、You.comがYouAgentとの対話を開始し、YouAgentが自身のコンピューティング環境でPythonコードを実行することができます。現在、ログインユーザーごとに1日最大5回までYouAgentのクエリを実行できます。YouProのサブスクリバーは、1日最大100回までの拡張制限を享受することができます。 STEMベンチマークでのYouAgentのパフォーマンスは非常に印象的です。強力なGPT-4と比較しても、YouAgentはさまざまなタスクで一貫して優れた正確さを示しています。特に、公式ACT数学セクションで正確さが27%も向上しています。これはC-の生徒とA+の生徒の違いに相当し、YouAgentの計算集中型評価における優れた能力を示しています。 YouAgentの特筆すべき機能の1つは、他の一般的なLLM製品に困惑を与えるSTEMの質問に対処できる能力です。コード実行環境へのアクセスとマルチステップの推論能力を備えたYouAgentは、複雑な数学的操作に関する質問に対して信頼性の高い回答を提供することができます。成果にもかかわらず、YouAgentは自身の成長の余地を認識しています。ベンチマークでの100%の正確さを達成することは、継続的な研究と開発を必要とする持続的な追求です。さらに、チームはコードの実行を改善し、最適な問題解決のために適切に活用することを目指しています。今後の展望として、YouAgentは能力を拡大するという野心的な計画を持っています。これには、ファイルのアップロードのサポート、プロットやグラフなどの画像出力の生成、コード実行でのウェブ検索の実行などが含まれます。さらに、より多くの数学的・科学的なライブラリの追加、数学的テキストの改善されたフォーマット、さまざまなSTEMベンチマークでの継続的なパフォーマンス向上も予定されています。まとめると、YouAgentはAIエージェントの潜在能力を最大限に活用する大きな進歩を表しています。従来のLLMが直面する重要な制約に対処し、STEM分野で正確で信頼性の高い情報を提供します。Pythonコードを実行するためのコンピューティング環境を活用することで、YouAgentは複雑な問題解決において比類のない能力を示しています。将来に向けて、YouAgentはAIテクノロジーとのやり取り方法を革新し、STEM分野の学習と問題解決の新たな時代を切り拓くことになるでしょう。

Uncategorized

Learn more about Search Results エージェント - Page 4