大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう
大規模言語モデルの評価:タスクベースAIフレームワーク、AgentSimsに会いましょう
LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜなら、LLMは言語データを使用してNLUとNLGを人間レベルで実行できるからです(OpenAI、2023年)。
クローズブック型の質問応答(QA)に基づく知識テスト、人間中心の標準化された試験、多回転の対話、推論、安全性評価など、新たな評価課題とデータセットが必要とされています。NLPコミュニティは、さまざまなスキルをカバーする新しい評価課題とデータセットを提案しました。
ただし、これらの更新された基準には以下の問題が依然として存在します。
- 「インクリメンタルラーニング:メリット、実装、課題」
- テキストによる画像および3Dシーン編集の高精度化:『Watch Your Steps』に出会う
- メタがコードラマをリリース:コーディングのための最新のAIツール
- 課題の形式は評価可能な能力に制約を課しています。これらの活動のほとんどはワンターンのQAスタイルを使用しており、LLMの柔軟性を全体として評価するには適していません。
- ベンチマークの操作は簡単です。モデルの効果を決定する際には、テストセットがいかなる方法でも変更されていないことが重要です。しかし、既に訓練されたLLM情報が非常に多くあるため、テストケースが訓練データと混ざる可能性が高まっています。
- オープンエンドのQAには現在利用可能なメトリクスが主観的です。従来のオープンエンドのQAの評価には客観的および主観的な人間の評価が含まれていました。LLM時代には、テキストセグメントの一致に基づく測定はもはや関連性がありません。
研究者は現在、GPT4などの適切に整列されたLLMに基づく自動評価者を使用して、人間の評価の高いコストを下げています。LLMは特定の特性に偏っていますが、この方法の最大の問題は、GPT4以上のモデルを分析できないことです。
PTA Studio、ペンシルバニア州立大学、北京航空航天大学、中山大学、浙江大学、東華師範大学による最近の研究では、AgentSimsという、LLMの評価課題をインタラクティブで視覚的に魅力的かつプログラムベースでキュレーションするアーキテクチャが紹介されています。AgentSimsの主な目標は、プログラミングの知識レベルが異なる研究者が直面する障壁を取り除き、タスク設計プロセスを容易にすることです。
LLMの分野の研究者は、AgentSimsの拡張性と組み合わせ性を活用して、複数の計画、メモリ、学習システムの組み合わせの効果を調査することができます。AgentSimsのマップ生成とエージェント管理のユーザーフレンドリーなインターフェースは、行動経済学や社会心理学など、さまざまな専門分野の専門家にもアクセスしやすくなっています。このようなユーザーフレンドリーな設計は、LLMセクターの持続的な成長と発展において重要です。
研究論文によれば、AgentSimsは現在のLLMベンチマークよりも優れており、わずかなスキルのみをテストし、テストデータと基準が解釈の余地があるベンチマークよりも優れています。社会科学者や他の非技術的なユーザーは、グラフィカルインターフェースのメニューやドラッグアンドドロップ機能を使用して、環境を簡単に作成し、ジョブを設計することができます。抽象化されたエージェント、計画、メモリ、ツール使用のクラスのコードを変更することで、AIの専門家や開発者はさまざまなLLMサポートシステムを実験することができます。目標指向の評価によって、目的のタスク成功率を決定することができます。要するに、AgentSimsは、明確な目標を持つさまざまな社会シミュレーションに基づいた堅牢なLLMベンチマークの横断的なコミュニティ開発を促進します。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles