Learn more about Search Results エージェント - Page 8

「NYUとMeta AIの研究者は、ユーザーと展開されたモデルの間の自然な対話から学習し、追加の注釈なしで社会的な対話エージェントの改善を研究しています」

ヒューマンインプットは、社会的な対話モデルを改善するための重要な戦術です。ヒューマンフィードバックを用いた強化学習では、満足な報酬関数を保証するために多くのヒューマンアノテーションが必要とされており、フィードバックからの学習には非常な改善が見られています。フィードバックの源は、対話ターンや対話エピソードについてのユーザーからの数値スコア、ランキング、自然言語のコメント、およびボットターンのバイナリ評価などが含まれます。ほとんどの研究では、これらの信号をクラウドワーカーを利用して意図的に収集しています。なぜなら、一般のユーザーはそうすることを避けたいか、もしそうする場合には正確な情報を提供しないかもしれないからです。 この研究では、ニューヨーク大学とMeta AIの研究者が、モデルと有機的なユーザー間の実際の議論を特徴とする多くの展開時対話エピソードを持っている状況を考慮しています。彼らは、これらの自然なユーザーの議論から何らかの暗黙の指示を得ることができ、それらの信号を対話モデルの向上に利用することができるかどうかを調査しようとしています。これには2つの理由があります。まず第一に、彼らは明示的な注釈を提供しないかもしれませんが、有機的なユーザーは将来の展開のためのデータ分布に最も近いです。第二に、対話の以前のエピソードからの暗黙の信号を使用することで、クラウドソーシングに費やされるお金を節約することができます。 図1: アプローチの概要。人間とロボットの対話から、次のヒューマンターンが長くなるか短くなるか、または喜ばしいかどうかなどの暗黙の信号を得ます。 より具体的には、彼らはチャットボットを調整して、将来のヒューマンの回答の数量、長さ、感情、または反応性などの最適な暗黙のフィードバック信号を使用することができるかどうかを検討しています。彼らは、この問題を調査するためにBlenderBotのオンライン展開から公開された匿名化されたデータを使用しています。このデータを使用して、彼らはサンプルモデルと再ランクモデルをトレーニングし、さまざまな暗黙のフィードバック信号を比較します。彼らの新しいモデルは、自動化された評価と人間の判断の両方を通じて、ベースラインの返信よりも優れていると発見されました。さらに、彼らの暗黙のフィードバック信号が世代の品質の粗いプロキシ指標であるため、これらの指標をサポートすることが望ましくない行動を引き起こすかどうかを尋ねています。 はい、使用される信号によります。特に、議論の長さを最適化すると、モデルが論争的な意見を提供したり、敵意を持ったり攻撃的な態度で返答する可能性があります。一方、好意的な応答やムードを最適化すると、これらの行動がベースラインに比べて減少します。ヒューマンからの暗黙のフィードバックは、全体的なパフォーマンスを向上させることができる有益なトレーニング信号であると結論づけられますが、具体的な手法には重要な行動的な影響があります。

「Google DeepMindと東京大学の研究者が、WebAgentを紹介:自然言語の指示に従って実際のウェブサイト上のタスクを完了できるLLM-Drivenエージェント」

論理演算、常識、論理的な推論、質問応答のタスク、テキスト生成、さらには対話的な意思決定タスクなど、多くの自然言語の活動は、大規模な言語モデル(LLM)を利用して解決することができます。HTMLの理解能力と多段階の推論を利用することで、LLMは最近、与えられた自然言語の命令を満たすために、コンピュータのアクションの連続を通じてエージェントがコンピュータを制御したり、インターネットを閲覧したりする自律的なウェブナビゲーションで優れた成功を示しています。事前に定義されたアクションスペースの欠如、シミュレータと比較してより長いHTMLの観測、およびLLMにおけるHTMLドメインの知識の欠如は、実世界のウェブナビゲーションに否定的な影響を与えています(図1)。 図1:実際のウェブナビゲーションの困難さ。現代の言語モデルエージェントは、事前に定義された操作を制御し、簡単に理解できるように簡略化されたHTMLテキストを受け取る仮想的なウェブサイトを探索することができます。エージェントがオープンエンドのタスクに対処し、多くのタスクに関係のない要素を含む長いHTMLテキストに対処する必要がある実際のウェブサイトをナビゲートする際には、言語モデルエージェントは引き続き苦労しています。 命令の複雑さとオープンエンドの実世界のウェブサイトのために、事前に適切なアクションスペースを選択することは容易ではありません。最新のLLMは、HTMLテキストの処理に最適な設計を持つことは稀であり、さまざまな研究では、命令の微調整や人間の入力からの強化学習がHTMLの理解とオンラインナビゲーションの精度を向上させると主張しています。多くのLLMは、一般的なタスクの汎用性とモデルのスケーラビリティを優先するため、実際のウェブページに見られる典型的なHTMLトークンよりも短い文脈の期間を優先し、テキスト-XPathの整列やテキスト-HTMLトークンの分離などの過去のアプローチを採用していません。 そうした長いテキストにトークンレベルのアラインメントを適用することは比較的安価です。WebAgentという、人間の命令に従って実際のウェブサイトでナビゲーションタスクを実行できるLLM駆動の自律エージェントを提供するために、プログラムスペースでカノニカルなウェブ操作をグループ化します。自然言語の命令をより小さなステップに分割することで、WebAgentは以下のことを行います: 各ステップのサブ命令を計画します。 サブ命令に基づいて長いHTMLページをタスクに関連するスニペットにまとめます。 実際のウェブサイトでサブ命令とHTMLスニペットを実行します。 この研究では、Google DeepMindと東京大学の研究者が、2つのLLMを組み合わせてWebAgentを作成しました。最近作成されたHTML-T5というドメインエキスパートの事前訓練言語モデルを使用して作業計画と条件付きHTML要約を行います。Flan-U-PaLMは、グラウンデッドコードの生成に使用されます。HTML-T5には、エンコーダにローカルとグローバルなアテンション手法を組み込むことで、長いHTMLページの構造の構文と意味をよりよく捉えるように特化させることができます。これは、長いスパンのノイズ除去目標を組み合わせたCommonCrawl1によって作成された大規模なHTMLコーパスで事前訓練された自己教師ありのモデルです。既存のLLM駆動のエージェントは、各タスクごとにさまざまな例を促すために単一のLLMを使用して意思決定タスクを完了することがよくあります。しかし、これはシミュレータの複雑さを超えるため、実世界のタスクには不十分です。 徹底的な評価によると、プラグイン言語モデルとの統合戦略により、HTMLの理解とグラウンディングが向上し、より高い汎化能力を持つことが示されています。詳細な研究によれば、タスク計画とHTML要約を専門の言語モデルでリンクさせることは、タスクのパフォーマンスにおいて重要であり、実世界のオンラインナビゲーションの成功率を50%以上向上させることができます。WebAgentは、QAの精度において単一のLLMに対して静的なウェブサイトの理解タスクで優れたパフォーマンスを発揮し、優れた基準と比較可能なパフォーマンスを持っています。さらに、HTML-T5はWebAgentの重要なプラグインとして機能し、ウェブベースのジョブで先端的な結果を独自に生み出します。MiniWoB++テストでは、HTML-T5は単純なローカルグローバルアテンションモデルやその命令微調整バリエーションよりも優れた成績を収め、以前の最良の技術よりも成功率が14.9%高い結果を達成しています。 彼らは主に以下の点に貢献しています: • 実用的なWebナビゲーションのために2つのLLMを組み合わせたWebAgentを提供しています。一般的な言語モデルは実行可能なプログラムを生成し、ドメインエキスパート言語モデルは計画とHTMLの要約を処理します。 • ローカルグローバルアテンションを採用し、大規模なHTMLコーパスを用いた長距離ノイズ除去の組み合わせによる事前トレーニングを行うことで、HTML-T5という新しいHTML特化言語モデルを提供しています。 • 実際のウェブサイトでは、HTML-T5は成功率を50%以上向上させ、MiniWoB++では従来のLLMエージェントを14.9%上回ります。

FitBot — フィットネスチャットボットエージェント

健康意識が最前線にあり、バランスの取れたライフスタイルの追求が普遍的な願望となっている時代において、栄養は間違いなく中心的な要素となっていますしかし、...

イギリスのインペリアル・カレッジ・ロンドンとディープマインドの研究者たちは、AIフレームワークを設計しましたこのフレームワークは、言語をRLエージェントの中核的な推論ツールとして使用します

近年、深層学習の分野で重要な進展があり、特に自然言語処理(NLP)、自然言語理解(NLU)、コンピュータビジョン(CV)などの人工知能の人気のあるサブフィールドで顕著な成果が出ています。大規模言語モデル(LLM)はNLPのフレームワークで作成され、人間の才能と同等の優れた言語処理能力やテキスト生成能力を示しています。一方、CVのVision Transformers(ViTs)は明示的なガイドなしに、写真や動画から意味のある表現を学習することができました。また、Vision-linguistic Models(VLMs)も開発されており、視覚的な入力と言語的な記述を結びつけることができます。 様々な入力モダリティを含む幅広い下流アプリケーションの基礎モデルは、大量のテキストデータとビジュアルデータで事前学習されており、常識的な推論、サブゴールの提案と順序付け、視覚的理解などの重要な属性が生まれています。Foundation Modelsの能力を活用してより効果的で包括的な強化学習(RL)エージェントを作成する可能性は、研究者の研究対象です。RLエージェントは、周囲との相互作用やフィードバックとしての報酬を通じて知識を獲得することが多いですが、試行錯誤による学習は時間がかかり、実用的ではありません。 この制約に対処するため、研究者のチームは、特にゼロから学習が必要なシナリオで、言語を強化学習ロボットエージェントの中核に据えるフレームワークを提案しました。彼らの研究の主な貢献は、Foundation Modelsに保持された知識を活用することにより、特に4つのRL設定でいくつかの基本的な問題に効果的に対処できることを示すことです。 報酬が少ない設定での効率的な探索:報酬が少ない設定を探索することはRLエージェントにとって困難であり、最適な振る舞いを学習することが頻繁に難しいです。提案されたアプローチは、Foundation Modelsに保持された知識を活用することで、これらのコンテキストでの探索と学習をより効果的に行うことができます。 過去に収集したデータの再利用による連続学習:このフレームワークにより、RLエージェントは新しいタスクに取り組む際に毎回ゼロから始めるのではなく、以前に収集したデータを基に学習を進めることができ、新しいタスクの連続学習を支援します。 新しいタスクのための学習済みの能力のスケジューリング:このフレームワークは、学習済みの能力のスケジューリングをサポートし、エージェントが現在の知識を効率的に活用して新しいタスクに対処できるようにします。 エキスパートエージェントの観察からの学習:Foundation Modelsを使用してエキスパートエージェントの観察から学習することで、学習プロセスをより効率的かつ迅速に行うことができます。 研究チームは、主な貢献を以下のようにまとめています: このフレームワークは、言語モデルとビジョン言語モデルを基礎的な推論ツールとして使用することで、RLエージェントがテキスト情報に基づいてより効果的に推論と判断を行う能力を向上させます。この方法により、エージェントの困難なタスクと状況への理解力が向上します。 提案されたフレームワークは、過去には異なる特別に作成されたアルゴリズムが必要だった基本的なRLの問題を効率的に解決する効果を示します。 この新しいフレームワークは、報酬が少ないロボット操作の設定で従来のベースライン技術を上回る性能を発揮します。 このフレームワークは、以前に教えられたスキルを効率的に使用してタスクを完了することができます。学習済みの情報を新しい状況に転送する能力により、RLエージェントの一般化と適応性が向上します。 このフレームワークは、人間の専門家の映像を模倣することによってRLエージェントが観察から正確に学習できることを示します。 まとめると、この研究は、言語モデルとビジョン言語モデルが強化学習エージェントの推論の中核として機能する能力を持っていることを示しています。

CMUの研究者が「WebArena」を導入:有用なエージェントのベンチマーキングを行うための4つ以上の現実的で再現可能なWeb環境となる4つ以上の現実的なWebアプリを備えたもの

効率の向上とより広範なアクセシビリティの可能性を考慮すると、人間の自然言語の指示によって通常のタスクを実行できる自律エージェントは、人間のスキルをかなり補完することができます。これらの独立したエージェントの潜在能力を十分に活用するためには、実際的かつ再現可能な環境での彼らの振る舞いを理解することが重要です。 現在の設定は、複雑な問題を過度に簡素化しようとする傾向があります。そのため、多くの環境の特徴は、現実世界の相当するものの水を差したバージョンであり、作業の多様性に不足が生じています。他の場合では、環境は静的なリソースとして提示され、データ収集中にキャッシュされた状態のみを探索するエージェントの能力を制限します。 カーネギーメロン大学とInspired Cognitionによる新しい研究では、特定のタスクを実行するために自律エージェントを訓練するために使用できる再現可能な条件を持つシミュレートされたWeb環境であるWebArenaを紹介しています。この環境は、電子商取引、オンラインディスカッションフォーラム、共同ソフトウェア開発、エンタープライズコンテンツ管理の各分野に対応した4つのライブセルフホストWebアプリで構成されています。WebArenaには、マップ、計算機、メモ帳など、最も人間らしいタスク実行を容易にするためのいくつかの便利なツールも含まれています。最後に、WebArenaは、統合開発環境の使用ガイドや英語版Wikipediaなどのより専門的なサイトなど、豊富な補足資料によってサポートされています。これらのウェブサイトのコンテンツは、オフラインの対応物から直接抽出されているため、正確で最新のものです。gym APIを使用したDockerコンテナがホスティングサービスを提供し、WebArenaは使いやすく再現可能です。 WebArenaに加えて、彼らは812の将来志向のウェブベースのタスクの完全なベンチマークもオープンソース化しています。各アクティビティは、人間が一般的に採用する抽象的な言語使用パターンに基づいてモデル化され、自然言語の目標として説明されます。彼らはこれらの機能がどれだけうまく機能するかを分析することに焦点を当てています。プレーンなアクションのシーケンスを比較するよりも正確であり、十分に複雑なタスクでは同じ目標に対して複数の正当なルートが存在することを考慮できる評価です。 チームは、自然言語のコマンドに対してウェブベースの操作を実行できる多くのエージェントのパフォーマンスを比較するために、この基準を利用しています。これらのエージェントを作成するためには、現在の観測と履歴に基づいて次のステップを予測するエージェントから、ステップバイステップの推論などのより複雑な方法を使用するエージェントまで、さまざまな方法が使用されます。GPT-3.5やGPT-4などの強力な大規模言語モデル(LLM)は、フューショットのインコンテキスト学習アプローチでこれらのエージェントを作成します。その結果、実験では最も優れたGPT-4エージェントでも全体のタスク成功率は10.59%にとどまりました。現在のLLMの欠点として、積極的な探索と失敗の回復などの重要な機能が欠けていることが、複雑なタスクの効果的な完了の原因であると仮説を立てています。

「CMUの研究者たちは、TIDEEを提案します:明示的な指示なしで、これまで見たことのない部屋を整理することができる具現化エージェント」

効果的なロボットの運用には、予め決められた命令にただ従うだけでなく、明らかな異常から応答し、不完全な指示から重要な文脈を推論できる必要があります。部分的または自己生成された指示は、環境の物体、物理学、他のエージェントなどがどのように行動するかをしっかり理解することを必要とする推論を必要とします。このタイプの思考と行動は、実世界でロボットが自然に作業し、相互作用するために必要な共通感覚の推論の重要な要素です。 具体的な手順に従うことができる具体的なエージェントに比べて、具体的な共通感覚の思考の分野は遅れています。前者は明示的な指示なしに観察し、行動することを学ばなければなりません。具体的な常識的な思考は、整理するなどのタスクを通じて研究されるかもしれません。このタスクでは、エージェントは間違った場所にあるアイテムを認識し、適切な設定に戻すために修正アクションを行う必要があります。エージェントは、物体を移動させるために探索しながら賢明にナビゲートおよび操作し、現在のシーンで物体が自然な場所から外れていることを認識し、物体を再配置する場所を決定する必要があります。物体配置の常識的な推論と知的な存在の望ましいスキルがこの課題で結びついています。 TIDEEは、ガイダンスなしに以前見たことのないスペースを掃除できると研究チームによって提案された具体的なエージェントです。TIDEEは、シーンをスキャンして、正しい場所にないアイテムを見つけ、それをシーンの適切な場所に移動する方法を見つけることができるため、このようなエージェントは初めてです。 TIDEEは、家の周囲を調査し、配置が間違っているものを見つけ、それらのための可能なオブジェクトのコンテキストを推論し、現在のシーンでそのようなコンテキストを特定し、オブジェクトを正しい場所に戻します。共通の推論は、エージェントの探索を効率的に行うための視覚的な検索ネットワークにエンコードされています。視覚的な意味検出器は、場違いのオブジェクトを検出します。また、オブジェクトの再配置のための適切なセマンティックな受け入れ先と表面を提案する事柄と空間関係の連想ニューラルグラフメモリも存在します。AI2THORシミュレーション環境を使用して、研究者はTIDEEをカオスな環境で掃除させました。TIDEEは、同じ部屋を以前に見たことがなく、別のトレーニングホームの学習からのみ学習した事前知識のみを使用して、ピクセルと生の深さの入力から直接タスクを完了します。人間による部屋のレイアウト変更の評価によれば、一つまたは複数の常識的な事前条件を除外したモデルの実験的なバリエーションよりもTIDEEのパフォーマンスが優れているとされています。 TIDEEは、質問された場所やオブジェクトに事前のガイダンスや先行の接触なしで以前見たことのないスペースをきれいにすることができます。TIDEEは、エリアを見回し、アイテムを識別し、それらを正常または異常としてラベル付けします。TIDEEは、シーングラフと外部グラフメモリ上でグラフ推論を行い、オブジェクトが適切な場所にない場合に受け入れ先のカテゴリを推測します。それから、シーンの空間的セマンティックマップを使用して、受け入れ先カテゴリの可能な場所に画像ベースの検索ネットワークを誘導します。 どのように機能しますか? TIDEEは、3つの異なるステップで部屋を掃除します。TIDEEは、エリアをスキャンし、各タイムステップで異常検出器を実行し、不審なオブジェクトが見つかるまで続行します。それから、TIDEEはアイテムがある場所に移動し、それを取ります。第2のステップでは、TIDEEは、シーングラフと共同外部グラフメモリに基づいてアイテムのための受け入れ先を推測します。コンテナをまだ認識していない場合、TIDEEは、エリアの探索を誘導し、コンテナが見つかる可能性のある場所を示唆します。TIDEEは、以前に識別されたオブジェクトの推定3D重心をメモリに保持し、この情報をナビゲーションとオブジェクトの追跡に使用します。 各アイテムの視覚的属性は、市販のオブジェクト検出器を使用して収集されます。同時に、関係言語の特徴は、オブジェクト間の3D関係(「隣り合っている」、「支持されている」、「上にある」など)のための事前学習された言語モデルの予測をフィードすることによって生成されます。 TIDEEには、オブジェクトが持ち上げられた後に可能なアイテム配置のアイデアを予測するためのニューラルグラフモジュールが含まれています。アイテムの配置、トレーニングシナリオから学習した、コンテキストの接続を保持するメモリグラフ、および現在のシーンでのオブジェクト-関係構成をエンコードするシーングラフが相互作用してモジュールを機能させます。 TIDEEは、セマンティック障害マップと検索カテゴリを与えられた障害マップの各空間点におけるオブジェクトの存在の可能性を予測する光学的検索ネットワークを使用しています。その後、エージェントは、ターゲットが含まれると思われる最も可能性が高い領域を調べます。 TIDEEには2つの欠点がありますが、どちらも将来の研究の明白な方向性です。それはアイテムの開いた状態と閉じた状態を考慮していないこと、また混沌とした再構築プロセスの一部としてそれらの3Dの姿勢を含んでいないことです。 部屋に物を乱雑に散らばらせることから生じる混沌は、現実の混沌を代表している可能性があります。 TIDEEは、以前に同じ部屋を見たことがなく、ピクセルと生の深度入力のみを使用して作業を完了し、異なるトレーニングホームのコレクションから学習した先行知識のみを使用します。結果の部屋のレイアウト変更の人間による評価によれば、TIDEEは、一つ以上の常識的な先行知識を除外したモデルの劣化変種よりも優れたパフォーマンスを発揮します。単純化されたモデルバージョンは、比較可能な部屋の再配置ベンチマークで最も優れた解決策を大幅に上回り、エージェントが再配置前の目的の状態を観察することを可能にします。

USCの研究者は、新しい共有知識生涯学習(SKILL)チャレンジを提案しましたこのチャレンジでは、分散型のLLエージェントの集団が展開され、各エージェントが個別に異なるタスクを順次学習し、全てのエージェントが独立かつ並行して動作します

研究者による画期的な取り組みにより、共有知識生涯学習(SKILL)の開発を通じて機械学習の新時代が到来しました。最近発表された「Transactions on Machine Learning Research」誌の論文で、研究者はこの革新的なアプローチがAIエージェントが複数のタスクから知識を継続的に学習し保持することを可能にする方法を示し、人工知能の変革的な進歩を提供しています。 従来の機械学習は、タスク学習の連続プロセスを伴い、遅くて時間のかかる結果になることが多かったです。しかし、SKILLは並列学習アルゴリズムを用いることにより、革新的な概念を導入しています。このアプローチでは、102のAIエージェントのそれぞれに特定のタスクが割り当てられます。それぞれが専門分野での専門知識を習得した後、彼らは他のエージェントと知識を共有し、効率的なコミュニケーションと知識の統合を通じて全体の学習時間を大幅に短縮します。 研究者たちは、SKILLが生涯学習の将来の進歩に非常に有望であると考えています。彼らの研究には多くの自然なタスクが含まれており、顕著なスケーラビリティのポテンシャルが示されています。彼らは、SKILLがまもなく何千、あるいは何百万ものタスクを包括することができ、日常生活を変革する可能性があると想像しています。 例えば、異なるAIシステムが医療分野の異なる疾患、治療、患者ケア技術、最新の研究などについて学習することができます。その知識を統合した後、これらのAIエージェントは医学のあらゆる領域で最新かつ最も正確な情報を提供し、医師に包括的な医療助手として役立ちます。SKILLの統合により、医療は前例のない高みに到達し、医療専門家に比類ないサポートと専門知識を提供することができるでしょう。 医学に限らず、SKILLの潜在的な応用範囲はさまざまな領域に及びます。新しい街を訪れる際、すべてのスマートフォンユーザーが現地の観光ガイドとして活躍する未来を想像してみてください。カメラとランドマーク、店舗、製品、地元の料理に関する豊富な情報を備えた状態で、各ユーザーは広範な知識のリポジトリに貢献します。このデータがSKILLネットワーク全体で共有されると、すべてのユーザーは先進的なデジタルツアーガイドを手のひらで利用できるようになります。 SKILLの能力は、単なる認識に基づくタスクを超えます。現実世界の問題の複雑さが増すにつれて、解決策には多様な分野の専門知識が必要とされることがよくあります。SKILLは、AIエージェントが協力し、独自の洞察力と知識を結集して多様な課題に取り組むことを可能にします。 SKILLのコンセプトはクラウドソーシングに似ており、集合的な取り組みが個々の能力を超えた解決策を生み出します。オンラインのレビューが多くの人々の知識を集約して有益な情報を提供するように、SKILLはAIエージェントが情報を共有し、より包括的かつ正確な結論に至ることを可能にします。 このAIの革新的なブレイクスルーは、機械の持続的な学習と適応の追求において重要な一歩です。共有知識を受け入れることにより、AIエージェントは限られた専門知識の壁に閉じ込められることなく、自らのタスクの枠組みを超えることができるのです。要するに、研究者たちは、AIエージェントが連携ネットワークとして働き、人類につながりのある、知識豊富な、効率的なグローバルコミュニティを提供する未来を育んでいます。機械の集合知が進歩とイノベーションを牽引する世界です。 研究が進むにつれて、調和して連携する相互接続されたAIエージェントの世界のビジョンはますます具体的になってきます。潜在的な利益は広範囲にわたり、多くの分野に触れ、技術とのインタラクションの方法を革新しています。SKILLを触媒として、AIは知識に制約がなくなり、協力がスマートかつ効率的な世界の基盤となる未来へと私たちを推進する準備が整っています。

「MACTAに会いましょう:キャッシュタイミング攻撃と検出のためのオープンソースのマルチエージェント強化学習手法」

私たちは複数の形式のデータに圧倒されています。金融部門、医療、教育部門、または組織からのデータであっても、そのデータのプライバシーとセキュリティは、頻繁に発生する攻撃のために、すべての組織にとって重要なニーズであり懸念事項です。コンピュータシステムへの攻撃は、機微な情報の損失を引き起こし、評判の損害、法的責任、財務損失という重大な結果をもたらす可能性があります。データへの不正アクセスにつながる可能性もあります。 重大な脅威を引き起こすシステムへの攻撃の特定のタイプは、キャッシュタイミング攻撃(CTA)です。キャッシュタイミング攻撃は、コンピュータシステムのキャッシュメモリのタイミング動作を悪用するセキュリティ攻撃です。キャッシュは、頻繁にアクセスされるデータを格納する小型の高速メモリコンポーネントであり、メモリアクセスの遅延を減らし、システム全体のパフォーマンスを向上させます。キャッシュタイミング攻撃の基本的なアイデアは、攻撃者が自身のメモリアクセスを注意深く制御して特定のキャッシュの動作を誘導することです。 現在、キャッシュタイミング攻撃を検出するために使用される技術は、ヒューリスティックと専門知識に大きく依存しています。この手動入力への依存は、脆弱性を引き起こし、新しい攻撃技術に適応することができなくなる可能性があります。この問題を克服するために、MACTA(Multi-Agent Cache Timing Attack)という解決策が最近提案されました。MACTAは、攻撃者と検出器の両方を訓練するために、集団ベースのトレーニングを活用するマルチエージェント強化学習(MARL)アプローチを利用しています。MARLを採用することで、MACTAは従来の検出技術の制約を克服し、キャッシュタイミング攻撃の検出の全体的な効果を改善することを目指しています。 MACTAの開発と評価には、MA-AUTOCATと呼ばれる現実的なシミュレート環境が作成されました。これにより、キャッシュタイミング攻撃者と検出器のトレーニングと評価を制御可能で再現性のある方法で行うことができます。MA-AUTOCATを使用することで、研究者はさまざまな条件下でMACTAのパフォーマンスを研究し分析することができます。 結果は、MACTAがセキュリティ専門家の手動入力を必要としない効果的な解決策であることを示しています。MACTAの検出器は高い汎化能力を示し、トレーニング中に公開されなかったヒューリスティック攻撃に対して97.8%の検出率を達成しています。さらに、MACTAは強化学習(RL)ベースの攻撃者の攻撃帯域幅を平均20%削減します。この攻撃帯域幅の削減は、MACTAがキャッシュタイミング攻撃を緩和する効果を示しています。SOTA検出器に対して、MACTA攻撃者の平均回避率は最大99%に達します。これは、MACTA攻撃者が検出を回避する能力が非常に高く、現在の検出メカニズムに大きな課題を提起していることを示しています。 まとめると、MACTAはキャッシュタイミング攻撃の脅威を緩和する新しいアプローチを提供します。MARLと集団ベースのトレーニングを活用することで、MACTAはキャッシュタイミング攻撃の検出の適応性と効果を向上させます。したがって、セキュリティの脆弱性に対処するために非常に有望です。

ChatGPTを使用してAIエージェントを作成する

新しい「カスタムインストラクション」機能を使うことで、ChatGPTをAIエージェントに変えることができます

「夢を先に見て、後で学ぶ:DECKARDは強化学習(RL)エージェントのトレーニングにLLMsを使用するAIアプローチです」

強化学習(RL)は、環境との相互作用によって複雑なタスクを実行することを学ぶことができる自律エージェントの訓練手法です。RLにより、エージェントは異なる状況で最適な行動を学び、報酬システムを使用して環境に適応することができます。 RLにおける主な課題は、多くの現実世界の問題の広範な状態空間を効率的に探索する方法です。この課題は、RLにおいてエージェントが探索を通じて環境との相互作用によって学習するために生じます。マインクラフトをプレイしようとするエージェントを考えてみてください。以前に聞いたことがある場合、マインクラフトのクラフトツリーがどれだけ複雑であるかを知っているはずです。数百のクラフト可能なオブジェクトがあり、一つを作るためには別のものを作る必要があるかもしれません。つまり、非常に複雑な環境です。 環境が多数の可能な状態と行動を持つ場合、ランダムな探索だけでは最適な方策を見つけることが困難になることがあります。エージェントは、現在の最適な方策を活用することと、状態空間の新しい部分を探索してより良い方策を見つけることとのバランスを取る必要があります。探索と活用をバランス良く行う効果的な探索方法を見つけることは、RLの研究の活発な分野です。 実用的な意思決定システムは、タスクに関する事前知識を効果的に利用する必要があることが知られています。タスク自体に関する事前情報を持つことにより、エージェントは方策を適応させることができ、サブオプティマルな方策に陥るのを回避することができます。しかし、現在のほとんどの強化学習手法は、事前のトレーニングや外部の知識なしで訓練されています。 では、なぜそうなのでしょうか?近年、大規模な言語モデル(LLM)を使用してRLエージェントを探索のために支援することに関心が高まっています。このアプローチは有望な結果を示していますが、環境におけるLLMの知識の具体化やLLMの出力の正確さといった多くの課題がまだ残されています。 では、RLエージェントの支援にLLMを使用するのを諦めるべきでしょうか?もしそうでない場合、どのようにしてこれらの問題を解決し、再びLLMを使用してRLエージェントをガイドすることができるのでしょうか?その答えは名前があり、それはDECKARDです。 DECKARDの概要。出典: https://arxiv.org/abs/2301.12050 DECKARDは、マインクラフト向けに訓練されています。マインクラフトで特定のアイテムを作成することは、ゲームの専門知識がなければ難しい課題となり得ます。これは、ゲーム内の目標を達成することが、密な報酬や専門家のデモンストレーションを使用することで容易になることを示した研究によって実証されています。その結果、マインクラフトにおけるアイテムの作成は、AIの分野において持続的な課題となっています。 DECKARDは、大規模な言語モデル(LLM)に対してフューショットプロンプティング技術を使用してサブゴールのための抽象的なワールドモデル(AWM)を生成します。LLMを使用して、タスクとその解決手順について仮説を立てます。その後、実際の環境でモジュラーポリシーを学習し、夢見る間に生成されたサブゴールのポリシーを生成します。これにより、DECKARDは仮説を検証することができます。AWMは起床フェーズで修正され、発見されたノードは将来再利用するために検証済みとマークされます。 実験によれば、LLMのガイダンスはDECKARDの探索において重要であり、LLMのガイダンスなしのバージョンのエージェントは、オープンエンドの探索中にアイテムを作るのに2倍以上の時間がかかります。特定のタスクを探索する際、DECKARDは比較可能なエージェントと比べて数桁以上のサンプル効率を改善し、LLMをRLに堅牢に適用する可能性を示しています。

Find the right Blockchain Investment for you

Web 3.0 is coming, whether buy Coins, NFTs or just Coding, everyone can participate.

Advertising with us