「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」

Google DeepMindと東京大学の研究者が、WebAgentを紹介

論理演算、常識、論理的な推論、質問応答のタスク、テキスト生成、さらには対話的な意思決定タスクなど、多くの自然言語の活動は、大規模な言語モデル(LLM)を利用して解決することができます。HTMLの理解能力と多段階の推論を利用することで、LLMは最近、与えられた自然言語の命令を満たすために、コンピュータのアクションの連続を通じてエージェントがコンピュータを制御したり、インターネットを閲覧したりする自律的なウェブナビゲーションで優れた成功を示しています。事前に定義されたアクションスペースの欠如、シミュレータと比較してより長いHTMLの観測、およびLLMにおけるHTMLドメインの知識の欠如は、実世界のウェブナビゲーションに否定的な影響を与えています(図1)。

図1:実際のウェブナビゲーションの困難さ。現代の言語モデルエージェントは、事前に定義された操作を制御し、簡単に理解できるように簡略化されたHTMLテキストを受け取る仮想的なウェブサイトを探索することができます。エージェントがオープンエンドのタスクに対処し、多くのタスクに関係のない要素を含む長いHTMLテキストに対処する必要がある実際のウェブサイトをナビゲートする際には、言語モデルエージェントは引き続き苦労しています。

命令の複雑さとオープンエンドの実世界のウェブサイトのために、事前に適切なアクションスペースを選択することは容易ではありません。最新のLLMは、HTMLテキストの処理に最適な設計を持つことは稀であり、さまざまな研究では、命令の微調整や人間の入力からの強化学習がHTMLの理解とオンラインナビゲーションの精度を向上させると主張しています。多くのLLMは、一般的なタスクの汎用性とモデルのスケーラビリティを優先するため、実際のウェブページに見られる典型的なHTMLトークンよりも短い文脈の期間を優先し、テキスト-XPathの整列やテキスト-HTMLトークンの分離などの過去のアプローチを採用していません。

そうした長いテキストにトークンレベルのアラインメントを適用することは比較的安価です。WebAgentという、人間の命令に従って実際のウェブサイトでナビゲーションタスクを実行できるLLM駆動の自律エージェントを提供するために、プログラムスペースでカノニカルなウェブ操作をグループ化します。自然言語の命令をより小さなステップに分割することで、WebAgentは以下のことを行います:

  1. 各ステップのサブ命令を計画します。
  2. サブ命令に基づいて長いHTMLページをタスクに関連するスニペットにまとめます。
  3. 実際のウェブサイトでサブ命令とHTMLスニペットを実行します。

この研究では、Google DeepMindと東京大学の研究者が、2つのLLMを組み合わせてWebAgentを作成しました。最近作成されたHTML-T5というドメインエキスパートの事前訓練言語モデルを使用して作業計画と条件付きHTML要約を行います。Flan-U-PaLMは、グラウンデッドコードの生成に使用されます。HTML-T5には、エンコーダにローカルとグローバルなアテンション手法を組み込むことで、長いHTMLページの構造の構文と意味をよりよく捉えるように特化させることができます。これは、長いスパンのノイズ除去目標を組み合わせたCommonCrawl1によって作成された大規模なHTMLコーパスで事前訓練された自己教師ありのモデルです。既存のLLM駆動のエージェントは、各タスクごとにさまざまな例を促すために単一のLLMを使用して意思決定タスクを完了することがよくあります。しかし、これはシミュレータの複雑さを超えるため、実世界のタスクには不十分です。

徹底的な評価によると、プラグイン言語モデルとの統合戦略により、HTMLの理解とグラウンディングが向上し、より高い汎化能力を持つことが示されています。詳細な研究によれば、タスク計画とHTML要約を専門の言語モデルでリンクさせることは、タスクのパフォーマンスにおいて重要であり、実世界のオンラインナビゲーションの成功率を50%以上向上させることができます。WebAgentは、QAの精度において単一のLLMに対して静的なウェブサイトの理解タスクで優れたパフォーマンスを発揮し、優れた基準と比較可能なパフォーマンスを持っています。さらに、HTML-T5はWebAgentの重要なプラグインとして機能し、ウェブベースのジョブで先端的な結果を独自に生み出します。MiniWoB++テストでは、HTML-T5は単純なローカルグローバルアテンションモデルやその命令微調整バリエーションよりも優れた成績を収め、以前の最良の技術よりも成功率が14.9%高い結果を達成しています。

彼らは主に以下の点に貢献しています:

• 実用的なWebナビゲーションのために2つのLLMを組み合わせたWebAgentを提供しています。一般的な言語モデルは実行可能なプログラムを生成し、ドメインエキスパート言語モデルは計画とHTMLの要約を処理します。

• ローカルグローバルアテンションを採用し、大規模なHTMLコーパスを用いた長距離ノイズ除去の組み合わせによる事前トレーニングを行うことで、HTML-T5という新しいHTML特化言語モデルを提供しています。

• 実際のウェブサイトでは、HTML-T5は成功率を50%以上向上させ、MiniWoB++では従来のLLMエージェントを14.9%上回ります。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

サイバー犯罪者がWormGPTを使用してメールセキュリティを侵害

サイバー犯罪の絶え間ない変化は、新たな危険なツールの登場をもたらしました。OpenAIのChatGPTや悪名高いサイバー犯罪ツール...

機械学習

「マルチラベル分類:PythonのScikit-Learnを用いた入門」

「仕事でマルチラベル分類器の開発方法を学びましょう」

データサイエンス

データセンターにおけるエネルギー効率最適化のための観測技術の活用

この記事では、データセンターにおけるエネルギー効率最適化のためのさまざまな可観測性技術と、ESG目標の達成に役立つ方法に...

人工知能

「スカイネット超越:AI進化の次なるフロンティアを作り出す」

記事は信頼性のあるデータの価値、貴重なデータインサイトへのアクセスの民主化、そして消費者プライバシーがビッグテックの...

機械学習

このAI論文は、「GREAT PLEA」倫理的フレームワークを提案しています:医療における責任あるAIのための軍事に焦点を当てたアプローチ

ピッツバーグ大学、ウェル・コーネル・メディシン、テレメディシン&先進テクノロジー研究センター、統合失調症(USU)、ブル...

AIニュース

「Amazon SageMakerの非同期エンドポイントを使用して、Amazon SageMaker JumpStartの基礎モデルのデプロイコストを最適化する」

この投稿では、これらの状況を対象にし、Amazon SageMaker JumpStartからAmazon SageMaker非同期エンドポイントに大規模な基...