大規模言語モデルの評価：包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

大規模言語モデルの評価：タスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理（NLP）の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜなら、LLMは言語データを使用してNLUとNLGを人間レベルで実行できるからです（OpenAI、2023年）。

クローズブック型の質問応答（QA）に基づく知識テスト、人間中心の標準化された試験、多回転の対話、推論、安全性評価など、新たな評価課題とデータセットが必要とされています。NLPコミュニティは、さまざまなスキルをカバーする新しい評価課題とデータセットを提案しました。

ただし、これらの更新された基準には以下の問題が依然として存在します。

課題の形式は評価可能な能力に制約を課しています。これらの活動のほとんどはワンターンのQAスタイルを使用しており、LLMの柔軟性を全体として評価するには適していません。
ベンチマークの操作は簡単です。モデルの効果を決定する際には、テストセットがいかなる方法でも変更されていないことが重要です。しかし、既に訓練されたLLM情報が非常に多くあるため、テストケースが訓練データと混ざる可能性が高まっています。
オープンエンドのQAには現在利用可能なメトリクスが主観的です。従来のオープンエンドのQAの評価には客観的および主観的な人間の評価が含まれていました。LLM時代には、テキストセグメントの一致に基づく測定はもはや関連性がありません。

研究者は現在、GPT4などの適切に整列されたLLMに基づく自動評価者を使用して、人間の評価の高いコストを下げています。LLMは特定の特性に偏っていますが、この方法の最大の問題は、GPT4以上のモデルを分析できないことです。

PTA Studio、ペンシルバニア州立大学、北京航空航天大学、中山大学、浙江大学、東華師範大学による最近の研究では、AgentSimsという、LLMの評価課題をインタラクティブで視覚的に魅力的かつプログラムベースでキュレーションするアーキテクチャが紹介されています。AgentSimsの主な目標は、プログラミングの知識レベルが異なる研究者が直面する障壁を取り除き、タスク設計プロセスを容易にすることです。

LLMの分野の研究者は、AgentSimsの拡張性と組み合わせ性を活用して、複数の計画、メモリ、学習システムの組み合わせの効果を調査することができます。AgentSimsのマップ生成とエージェント管理のユーザーフレンドリーなインターフェースは、行動経済学や社会心理学など、さまざまな専門分野の専門家にもアクセスしやすくなっています。このようなユーザーフレンドリーな設計は、LLMセクターの持続的な成長と発展において重要です。

研究論文によれば、AgentSimsは現在のLLMベンチマークよりも優れており、わずかなスキルのみをテストし、テストデータと基準が解釈の余地があるベンチマークよりも優れています。社会科学者や他の非技術的なユーザーは、グラフィカルインターフェースのメニューやドラッグアンドドロップ機能を使用して、環境を簡単に作成し、ジョブを設計することができます。抽象化されたエージェント、計画、メモリ、ツール使用のクラスのコードを変更することで、AIの専門家や開発者はさまざまなLLMサポートシステムを実験することができます。目標指向の評価によって、目的のタスク成功率を決定することができます。要するに、AgentSimsは、明確な目標を持つさまざまな社会シミュレーションに基づいた堅牢なLLMベンチマークの横断的なコミュニティ開発を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

AI ShortsApplicationsArtificial IntelligenceEditors PickLanguage modelLarge Language ModelMachine learningStaffTech NewsTechnologyUncategorized

Was this article helpful?

93 out of 132 found this helpful

大規模言語モデルの評価：包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

Was this article helpful?

「インクリメンタルラーニング：メリット、実装、課題」

メタAIは、「Code Llama」という最先端の大規模言語モデルをリリースしましたこれはコーディングのためのものです

機械学習

「コーディング経験なしでAIエージェンシーを始める方法」

「リトリーバル増強生成」とは何ですか？

「PyTorchにおける複数GPUトレーニングとそれに代わる勾配蓄積」

KPMGのジェネレーティブAIの未来への飛躍

「AIがウクライナの戦場に参戦を望む！」

光ニューラルネットワークとトランスフォーマーモデルを実行した場合、どのようなことが起こるのでしょうか？