CMUの研究者が「Zeno」という名前の、機械学習(ML)モデルの行動評価のためのフレームワークを紹介しました
CMUの研究者が、機械学習モデル「Zeno」の行動評価フレームワークを紹介
AI駆動システムのプロトタイピングは常に複雑でした。しかし、プロトタイプを使用してしばらくすると、それがより機能的であることがわかるかもしれません。メモを取るためのチャットボット、テキストから画像を作成するためのエディタ、および顧客のコメントを要約するためのツールは、プログラミングの基本的な理解と数時間で作成することができます。
実際の世界では、機械学習(ML)システムには社会的な偏見や安全上の懸念などの問題が組み込まれることがあります。歩行者検出モデルの人種的偏見から特定の医療画像の系統的な誤分類まで、実践者や研究者は常に最先端のモデルの重大な制限や不具合を発見しています。モデルの制限を発見し、検証するためには、行動評価またはテストが一般的に使用されます。集計された精度やF1スコアなどの統合メトリックを調べる以上に、モデルの出力パターンをサブグループや入力データのスライスごとに理解する必要があります。MLエンジニア、デザイナー、およびドメインエキスパートなどの利害関係者は、モデルの予想される欠陥と潜在的な欠陥を特定するために協力する必要があります。
行動評価の重要性は広く強調されていますが、それを行うことは依然として困難です。さらに、公正なツールキットなどの多くの人気のある行動評価ツールは、実際の実践者が通常取り扱うモデル、データ、または振る舞いをサポートしていません。実践者はユーザーや利害関係者から手動で選んだケースをテストし、モデルを評価し、適切な展開バージョンを選択します。モデルは、実践者がモデルが使用される製品またはサービスに慣れる前に頻繁に作成されます。
- MITとUC Berkeleyの研究者は、最小限の努力で人間がロボットに望むことを素早く教えることができるフレームワークを提案しました
- スタンフォード大学とMilaの研究者は、多くの大規模言語モデルの中核構築ブロックの代替として、注目しないHyenaを提案しています
- 研究者たちは、画期的な自己感知人工筋肉を開発しました
特定のタスクをどれだけうまく完了できるかを理解することは、モデル評価の難しさです。モデルのパフォーマンスは、人間の知能の粗い近似値であるように、集計指標を使用しておおよそ推定するしかありません。たとえば、NLPシステムに正確な文法を埋め込むことができない場合や、社会的な偏見のようなシステム上の欠陥を隠すことができる場合があります。標準のテスト方法は、データのサブセットで全体のパフォーマンスメトリックを計算することです。
モデルが持つべき機能を決定する難しさは、行動評価の分野にとって重要です。複雑なドメインでは、要件のリストをテストすることは不可能です。なぜなら、無限の数が存在する可能性があるからです。その代わりに、MLエンジニアはドメインエキスパートやデザイナーと協力して、モデルの予想される機能を説明し、反復および展開する前に記述します。ユーザーは製品やサービスとのインタラクションを通じてモデルの制約と予想される振る舞いにフィードバックを提供し、将来のモデルのイテレーションに組み込まれます。
ML評価システムには、モデルの振る舞いを特定し、検証し、監視するための多くのツールがあります。これらのツールは、公平性の懸念やエッジケースなどのパターンを明らかにするために、データの変換と可視化を使用します。Zenoは他のシステムと協力し、他の方法を組み合わせています。データセットのサブグループまたはスライスに対してメトリックを計算するスライスベースの分析は、Zenoに最も近い行動評価方法です。Zenoは現在、任意のドメインやアクティビティに対してスライドベースのテストとメタモーフィックテストを可能にしています。
ZenoにはPythonアプリケーションプログラミングインタフェース(API)とグラフィカルユーザインタフェース(GUI)(UI)が含まれています。モデルの出力、メトリック、メタデータ、変更されたインスタンスなど、行動評価の基本的なコンポーネントは、Python API関数として実装できます。APIの出力は、行動評価とテストを実施するためのメインインタフェースを構築するためのフレームワークです。Zenoには2つの主要なフロントエンドビューがあります。データの発見とスライスの作成に使用されるExploration UIと、テストの作成、レポートの作成、パフォーマンスのモニタリングに使用されるAnalysis UIです。
ZenoはPythonスクリプトを介して一般に公開されています。組み込まれたフロントエンドはSvelteで書かれており、視覚化にはVega-Lite、データ処理にはArqueroを使用しています。このライブラリはPythonパッケージに含まれています。必要な設定(テストファイル、データパス、列名など)を指定した後、ユーザーはコマンドラインからZenoの処理とインタフェースを開始します。ZenoのUIをURLエンドポイントとしてホストする能力により、それをローカルに展開するか、他のコンピューティングと共にサーバーに展開することができ、ユーザーは自分のデバイスからアクセスできます。このフレームワークは、数百万のインスタンスを含むデータセットで試され、設置されたシナリオにも適切にスケーリングするはずです。
ML環境には、特定のデータやモデルに対応するさまざまなフレームワークやライブラリがあります。Zenoは、カスタマイズ可能なPythonベースのモデル推論およびデータ処理APIに大いに依存しています。研究者たちは、ほとんどのMLライブラリがPythonに基づいているため、同じ断片化の問題に直面しているにもかかわらず、現代のほとんどのMLモデルをサポートするために、zenoのバックエンドAPIを一連のPythonデコレータメソッドとして開発しました。
研究チームによって実施された事例研究では、ZenoのAPIとUIがデータセットとジョブ全体にわたって主要なモデルの欠陥を発見するのにどのように協力しているかが示されました。より広い意味で言えば、この研究の結果から、行動評価フレームワークはさまざまなデータやモデルに対して有用であることが示唆されます。
ユーザーのニーズや課題の難しさに応じて、Zenoのさまざまな機能は行動評価をより簡単で迅速かつ正確にすることが可能です。事例2の参加者はAPIの拡張性を活用してモデル分析のメタデータを作成しました。事例研究の参加者は、既存のワークフローにZenoを組み込むことやZeno APIとのコード通信についてほとんど困難を報告していませんでした。
制約と予防措置
- 行動評価において、エンドユーザーにとって重要な行動やモデルによってエンコードされる行動を把握することは大きな困難です。研究者は現在、ZenoHubという共同リポジトリを開発しており、ユーザーがZenoの機能を共有し、関連する分析コンポーネントをより簡単に見つけることができるようにして、モデル機能の再利用を促進しています。
- Zenoの主な機能はデータスライスに対してメトリックを定義してテストすることですが、ツールはデータやスライスを表示するための限られたグリッドとテーブルビューのみを提供しています。Zenoの有用性は、さまざまな強力な可視化手法のサポートによって向上する可能性があります。DendroMap、Facets、AnchorVizなど、意味的な類似性をエンコードしたインスタンスビューを使用することで、ユーザーはデータ内のパターンや新たな行動をより良く発見することができるでしょう。ML Cube、Neo、ConfusionFlowなど、Zenoがモデルの行動をより良く表示するために変更できるいくつかのMLパフォーマンスの可視化手法があります。
- Zenoは並列計算とキャッシングによって大規模なデータセットにスケーリングすることができますが、機械学習のデータセットのサイズは急速に増加しています。そのため、より高速な処理を実現するためにさらなる改善が求められます。Rayなどのライブラリを使用して分散コンピューティングクラスタで処理を行うことは、将来のアップデートとなるでしょう。
- 非常に大きなテーブル上での複数のヒストグラムのクロスフィルタリングは、別の障害です。ZenoはFalconのような最適化手法を用いて、大規模データセット上でリアルタイムのクロスフィルタリングを容易にすることができます。
結論:
訓練データにおいて機械学習モデルが高い精度を達成しても、実際の世界においてはネガティブなバイアスや安全上の問題など、システム的な欠陥に苦しむ可能性があります。実践者はモデルの行動評価を行い、特定の入力に対するモデルの出力を検査して、このような問題を特定し修正します。行動評価は重要でありながらも困難な課題であり、実世界のパターンの発見やシステム的な欠陥の検証を必要とします。機械学習の行動評価は、バイアスや安全上の問題など、問題のあるモデルの行動を特定し修正するために重要です。この研究では、著者らがMLの評価の困難さに深く踏み込み、さまざまな文脈でモデルをスコアリングするための普遍的な手法を開発しました。実践者が実世界のモデルを評価する4つの事例研究を通じて、研究者はZenoが複数の領域にわたって適用できる可能性を示しました。
多くの人々はAIの発展に高い期待を寄せています。しかし、彼らの行動の複雑さは彼らの能力と同じ速度で発展しています。行動駆動の開発を可能にし、人間の価値と調和したインテリジェントシステムの構築を保証するためには、堅牢なリソースが必要です。Zenoは、AI関連のさまざまなジョブ全体でこのような詳細な検証を行うことができる柔軟なプラットフォームです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- チューリッヒ大学の研究者たちは、スイスの4つの公用語向けの多言語言語モデルであるSwissBERTを開発しました
- 「MITの研究者が、おそらくほぼ正確な(PAC)プライバシーによる機械学習モデルのプライバシー保護において、ブレークスルーを達成」
- 「SimCLRの最大の問題を修正する〜BYOL論文の解説」
- 「信頼性の高い医療用AIツールの開発」
- ETHチューリッヒとマイクロソフトの研究者らが提案したX-Avatarは、人間の体の姿勢と顔の表情をキャプチャできるアニメーション可能な暗黙の人間アバターモデルです
- GoogleがNotebookLMを導入:あなた専用の仮想研究アシスタント
- DeepMindからの新しいAI研究では、有向グラフに対して二つの方向と構造に敏感な位置符号化を提案しています