大規模言語モデルの評価:包括的かつ客観的なテストのためのタスクベースAIフレームワーク、AgentSimsに会いましょう

大規模言語モデルの評価:タスクベースAIフレームワーク、AgentSimsに会いましょう

LLMは、言語処理(NLP)の考え方を変えましたが、評価の問題は解決されていません。古い基準はやがて無意味になります。なぜなら、LLMは言語データを使用してNLUとNLGを人間レベルで実行できるからです(OpenAI、2023年)。

クローズブック型の質問応答(QA)に基づく知識テスト、人間中心の標準化された試験、多回転の対話、推論、安全性評価など、新たな評価課題とデータセットが必要とされています。NLPコミュニティは、さまざまなスキルをカバーする新しい評価課題とデータセットを提案しました。

ただし、これらの更新された基準には以下の問題が依然として存在します。

  1. 課題の形式は評価可能な能力に制約を課しています。これらの活動のほとんどはワンターンのQAスタイルを使用しており、LLMの柔軟性を全体として評価するには適していません。
  2. ベンチマークの操作は簡単です。モデルの効果を決定する際には、テストセットがいかなる方法でも変更されていないことが重要です。しかし、既に訓練されたLLM情報が非常に多くあるため、テストケースが訓練データと混ざる可能性が高まっています。
  3. オープンエンドのQAには現在利用可能なメトリクスが主観的です。従来のオープンエンドのQAの評価には客観的および主観的な人間の評価が含まれていました。LLM時代には、テキストセグメントの一致に基づく測定はもはや関連性がありません。

研究者は現在、GPT4などの適切に整列されたLLMに基づく自動評価者を使用して、人間の評価の高いコストを下げています。LLMは特定の特性に偏っていますが、この方法の最大の問題は、GPT4以上のモデルを分析できないことです。

PTA Studio、ペンシルバニア州立大学、北京航空航天大学、中山大学、浙江大学、東華師範大学による最近の研究では、AgentSimsという、LLMの評価課題をインタラクティブで視覚的に魅力的かつプログラムベースでキュレーションするアーキテクチャが紹介されています。AgentSimsの主な目標は、プログラミングの知識レベルが異なる研究者が直面する障壁を取り除き、タスク設計プロセスを容易にすることです。

LLMの分野の研究者は、AgentSimsの拡張性と組み合わせ性を活用して、複数の計画、メモリ、学習システムの組み合わせの効果を調査することができます。AgentSimsのマップ生成とエージェント管理のユーザーフレンドリーなインターフェースは、行動経済学や社会心理学など、さまざまな専門分野の専門家にもアクセスしやすくなっています。このようなユーザーフレンドリーな設計は、LLMセクターの持続的な成長と発展において重要です。

研究論文によれば、AgentSimsは現在のLLMベンチマークよりも優れており、わずかなスキルのみをテストし、テストデータと基準が解釈の余地があるベンチマークよりも優れています。社会科学者や他の非技術的なユーザーは、グラフィカルインターフェースのメニューやドラッグアンドドロップ機能を使用して、環境を簡単に作成し、ジョブを設計することができます。抽象化されたエージェント、計画、メモリ、ツール使用のクラスのコードを変更することで、AIの専門家や開発者はさまざまなLLMサポートシステムを実験することができます。目標指向の評価によって、目的のタスク成功率を決定することができます。要するに、AgentSimsは、明確な目標を持つさまざまな社会シミュレーションに基づいた堅牢なLLMベンチマークの横断的なコミュニティ開発を促進します。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

AIニュース

AIマニア:バブルがはじける方向に向かっているのか?

仮想通貨ブームの後、人工知能(AI)の世界はベンチャーキャピタリスト(VC)の関心の大きな急増を経験しました。しかし、仮...

データサイエンス

AIの導入障壁:主要な課題と克服方法

人工知能(AI)がビジネスを革新し、効率を高め、生産性を向上させる方法を発見してくださいAI導入の障壁について議論します

機械学習

このAIニュースレターは、あなたが必要とするすべてです#71

今週、ジョー・バイデン大統領は人工知能の規制を再び注目させるために、人工知能の監督を目的とする行政命令に署名しました...

機械学習

『circ2CBAを紹介 circRNA-RBP結合サイトの予測を革新する新しい深層学習モデル』

最近、中国の研究チームが、circular RNAs(circRNAs)とRNA-binding proteins(RBPs)の結合部位の予測を革新すると約束する...

AIニュース

患者のケアを革新するAI技術

国民保健サービス(NHS)にとって重要な進展がありました。Henry Smith MPは、政府が2,100万ポンドの資金を投じて、最新の人...

人工知能

AI字幕生成ツール(短縮形式のコンテンツ用)

30秒以内で、短いコンテンツに対して絵文字付きのキャプションを生成することができます