大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

大規模言語モデルの評価:タスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜなら、LLMは言語データを使用してNLUとNLGを人間レベルで実行できるからです(OpenAI、2023年)。

クローズブック型の質問応答(QA)に基づく知識テスト、人間中心の標準化された試験、多回転の対話、推論、安全性評価など、新たな評価課題とデータセットが必要とされています。NLPコミュニティは、さまざまなスキルをカバーする新しい評価課題とデータセットを提案しました。

ただし、これらの更新された基準には以下の問題が依然として存在します。

  1. 課題の形式は評価可能な能力に制約を課しています。これらの活動のほとんどはワンターンのQAスタイルを使用しており、LLMの柔軟性を全体として評価するには適していません。
  2. ベンチマークの操作は簡単です。モデルの効果を決定する際には、テストセットがいかなる方法でも変更されていないことが重要です。しかし、既に訓練されたLLM情報が非常に多くあるため、テストケースが訓練データと混ざる可能性が高まっています。
  3. オープンエンドのQAには現在利用可能なメトリクスが主観的です。従来のオープンエンドのQAの評価には客観的および主観的な人間の評価が含まれていました。LLM時代には、テキストセグメントの一致に基づく測定はもはや関連性がありません。

研究者は現在、GPT4などの適切に整列されたLLMに基づく自動評価者を使用して、人間の評価の高いコストを下げています。LLMは特定の特性に偏っていますが、この方法の最大の問題は、GPT4以上のモデルを分析できないことです。

PTA Studio、ペンシルバニア州立大学、北京航空航天大学、中山大学、浙江大学、東華師範大学による最近の研究では、AgentSimsという、LLMの評価課題をインタラクティブで視覚的に魅力的かつプログラムベースでキュレーションするアーキテクチャが紹介されています。AgentSimsの主な目標は、プログラミングの知識レベルが異なる研究者が直面する障壁を取り除き、タスク設計プロセスを容易にすることです。

LLMの分野の研究者は、AgentSimsの拡張性と組み合わせ性を活用して、複数の計画、メモリ、学習システムの組み合わせの効果を調査することができます。AgentSimsのマップ生成とエージェント管理のユーザーフレンドリーなインターフェースは、行動経済学や社会心理学など、さまざまな専門分野の専門家にもアクセスしやすくなっています。このようなユーザーフレンドリーな設計は、LLMセクターの持続的な成長と発展において重要です。

研究論文によれば、AgentSimsは現在のLLMベンチマークよりも優れており、わずかなスキルのみをテストし、テストデータと基準が解釈の余地があるベンチマークよりも優れています。社会科学者や他の非技術的なユーザーは、グラフィカルインターフェースのメニューやドラッグアンドドロップ機能を使用して、環境を簡単に作成し、ジョブを設計することができます。抽象化されたエージェント、計画、メモリ、ツール使用のクラスのコードを変更することで、AIの専門家や開発者はさまざまなLLMサポートシステムを実験することができます。目標指向の評価によって、目的のタスク成功率を決定することができます。要するに、AgentSimsは、明確な目標を持つさまざまな社会シミュレーションに基づいた堅牢なLLMベンチマークの横断的なコミュニティ開発を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

チューリングテスト、中国の部屋、そして大規模言語モデル

チューリングテストは、AIの分野での古典的なアイデアですもともとは模倣ゲームと呼ばれ、アラン・チューリングは1950年に自...

AIテクノロジー

AIを活用した「ディープフェイク」詐欺:ケララ州のスキャマーに対する継続的な戦い

最近数ヶ月間、ケララではAIによる「ディープフェイク」技術を悪用した巧妙な詐欺の増加が目撃されています。300人以上が驚異...

AIニュース

「アマゾン対Google対マイクロソフト:AIで医療を革新する競争」

人工知能(AI)を医療業界に統合することは、技術の進歩の時代においてますます普及しています。Amazon、Google、Microsoftな...

人工知能

ジオのHaptikがビジネス向けのAIツールを立ち上げました

インドの人工知能スタートアップ、Haptikは、Reliance Jio Infocommの一部であり、ビジネスクライアントが仮想アシスタントと...

AIニュース

Voicebox メタ社の驚異的な音声生成AIツール

Meta(旧Facebook)は、革新的な音声生成を実現する最新の生成AIモデル「Voicebox」をリリースしました

機械学習

「ヘルスケアとゲノミクス産業が機械学習とAIで革新する方法」

AIと機械学習は医療研究のやり方を変えつつありますAIが薬剤探索、ゲノミクス、およびタンパク質の折りたたみに革新をもたら...