大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

大規模言語モデルの評価:タスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜなら、LLMは言語データを使用してNLUとNLGを人間レベルで実行できるからです(OpenAI、2023年)。

クローズブック型の質問応答(QA)に基づく知識テスト、人間中心の標準化された試験、多回転の対話、推論、安全性評価など、新たな評価課題とデータセットが必要とされています。NLPコミュニティは、さまざまなスキルをカバーする新しい評価課題とデータセットを提案しました。

ただし、これらの更新された基準には以下の問題が依然として存在します。

  1. 課題の形式は評価可能な能力に制約を課しています。これらの活動のほとんどはワンターンのQAスタイルを使用しており、LLMの柔軟性を全体として評価するには適していません。
  2. ベンチマークの操作は簡単です。モデルの効果を決定する際には、テストセットがいかなる方法でも変更されていないことが重要です。しかし、既に訓練されたLLM情報が非常に多くあるため、テストケースが訓練データと混ざる可能性が高まっています。
  3. オープンエンドのQAには現在利用可能なメトリクスが主観的です。従来のオープンエンドのQAの評価には客観的および主観的な人間の評価が含まれていました。LLM時代には、テキストセグメントの一致に基づく測定はもはや関連性がありません。

研究者は現在、GPT4などの適切に整列されたLLMに基づく自動評価者を使用して、人間の評価の高いコストを下げています。LLMは特定の特性に偏っていますが、この方法の最大の問題は、GPT4以上のモデルを分析できないことです。

PTA Studio、ペンシルバニア州立大学、北京航空航天大学、中山大学、浙江大学、東華師範大学による最近の研究では、AgentSimsという、LLMの評価課題をインタラクティブで視覚的に魅力的かつプログラムベースでキュレーションするアーキテクチャが紹介されています。AgentSimsの主な目標は、プログラミングの知識レベルが異なる研究者が直面する障壁を取り除き、タスク設計プロセスを容易にすることです。

LLMの分野の研究者は、AgentSimsの拡張性と組み合わせ性を活用して、複数の計画、メモリ、学習システムの組み合わせの効果を調査することができます。AgentSimsのマップ生成とエージェント管理のユーザーフレンドリーなインターフェースは、行動経済学や社会心理学など、さまざまな専門分野の専門家にもアクセスしやすくなっています。このようなユーザーフレンドリーな設計は、LLMセクターの持続的な成長と発展において重要です。

研究論文によれば、AgentSimsは現在のLLMベンチマークよりも優れており、わずかなスキルのみをテストし、テストデータと基準が解釈の余地があるベンチマークよりも優れています。社会科学者や他の非技術的なユーザーは、グラフィカルインターフェースのメニューやドラッグアンドドロップ機能を使用して、環境を簡単に作成し、ジョブを設計することができます。抽象化されたエージェント、計画、メモリ、ツール使用のクラスのコードを変更することで、AIの専門家や開発者はさまざまなLLMサポートシステムを実験することができます。目標指向の評価によって、目的のタスク成功率を決定することができます。要するに、AgentSimsは、明確な目標を持つさまざまな社会シミュレーションに基づいた堅牢なLLMベンチマークの横断的なコミュニティ開発を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

機械学習

このAI論文は、イメージとテキストのアラインメントモデルにおける詳細なテキストとビジュアルの説明のための高度な技術を紹介しています

“`html 画像テキストの整列モデルは、視覚的コンテンツとテキスト情報の意味のある関連を確立し、イメージキャプショニ...

データサイエンス

「誰も所有していないサービスを修復するために、アンブロックされたものを使う」

「サービスが誰にも所有されていないのは珍しいことではありませんほとんどの文書化もない状態で、Unblockedの魔法を使って、...

機械学習

AIパワードテックカンパニーが、食品小売業者に供給チェーン管理での新たなスタートを支援します

低く垂れ下がっている果物について話しましょう。Afreshは、食品ロスを減らすために供給チェーンを効率化するAIスタートアッ...

データサイエンス

新しいLAMPスタック:生成AI開発の革新を照らす

LAMPスタックは、さまざまなドメインでの生成型AIの開発と展開において必須となってきています

機械学習

ドメイン固有アプリケーションのためのLLM細かい調整戦略

「LLMファインチューニングとは何か、LLMをドメイン特化アプリケーションに適応する方法、ファインチューニングの種類などを...

人工知能

AIの革新的なイノベーションが開発者を強化する

SAPは、Build CodeやHANA Cloudなどの複数の生成AI機能を導入し、開発者が迅速にデータから価値を生み出し、革新するのを支援...