「責任あるAIダッシュボードでオブジェクト検出モデルをデバッグする」
Debugging object detection models with responsible AI dashboard.
Microsoft Build 2023では、Azure Machine Learning責任あるAIダッシュボードでのテキストと画像データのサポートをプレビューで発表しました。このブログでは、ダッシュボードの新しいビジョンインサイト機能に焦点を当て、オブジェクト検出モデルのデバッグ機能をサポートしています。テキストベースのシナリオについては、将来の投稿で詳しく取り上げます。その間、責任あるAIアプリケーションをサポートする他の発表やテキストベースのシナリオのデモが含まれるBuildブレイクアウトセッションをご覧いただけます。
はじめに
オブジェクト検出は、さまざまな重要なおよび敏感なユースケース(顔検出、野生生物検出、医療画像解析、小売り棚分析など)を駆動するために使用されています。オブジェクト検出は、画像内の複数のオブジェクトの位置を特定し、クラスを識別します。オブジェクトはバウンディングボックスで定義されます。これは画像分類とは異なり、画像内の内容を分類するものであり、インスタンスセグメンテーションとは、画像内の異なるオブジェクトの形状を識別するものです。
データのサブグループごとのオブジェクト検出のミスは、信頼性、安全性、公平性、および機械学習(ML)システムへの信頼を低下させる unintended harm(意図しない損害)を引き起こすことがあります。たとえば、画像コンテンツモデレーションツールは、全体的に高い精度を持っているかもしれませんが、特定の照明条件ではうまく動作せず、特定の民族集団を誤って検閲する場合があります。これらのエラーは、ほとんどのMLチームが現在、個々の特徴を示さない集計パフォーマンスメトリックのみに依存しているため、しばしば隠れています。MLチームはまた、さまざまなエラー分布につながるブラックボックスモデルの動作に対する可視性も欠いています。これらの課題により、MLチームはモデルの不一致を軽減するためにサービスの品質を最適化したり、最適なモデルの選択に公平性を考慮したり、新しいMLの進歩や新しいデータの利用可能性などによるモデルの更新/再デプロイが新たな損害をもたらさないようにするための可視性を欠いています。
- Google Cloud上のサーバーレストランスフォーマーパイプラインへの私の旅
- パートナーシップ:Amazon SageMakerとHugging Face
- 分散トレーニング:🤗 TransformersとAmazon SageMakerを使用して、要約のためにBART/T5をトレーニングする
これらの問題に対処するための道のりは、しばしば手間がかかり、時間がかかります。MLチームは、断片化されたデバッグツールをナビゲートしたり、カスタムのインフラストラクチャを作成したり、データをスライスして分析したりする必要があります。評価結果は比較や共有が難しく、技術的および非技術的な関係者からの意見や購入意思を得るのに役立ちます。ただし、技術的な専門知識と倫理、法的、経済的、および/または社会的な考慮事項を組み合わせることが、モデルを総合的に評価し、安全に展開するための鍵です。
オブジェクト検出モデルの責任ある開発を加速するために、このブログでは、Azure Machine Learning責任あるAIダッシュボードを使用してオブジェクト検出モデルを総合的に評価およびデバッグする方法について詳しく説明します。アクティブデータの探索とモデルの解釈可能性の技術を活用することで、このダッシュボードはMLプラクティショナーがモデルとデータの公平性のエラーを特定し、なぜそれらの問題が発生しているのかを診断し、適切な緩和策を提供するのに役立ちます。
オブジェクト検出の責任あるAIダッシュボードは、Azure Machine Learning Studio、Python SDK v2、およびCLI v2を介して利用できます。また、Responsible AI Toolboxリポジトリに統合されており、MLプラクティショナーやオープンソースコミュニティによるAIの開発と監視をより責任あるものにするためのさまざまなツールが提供されています。他のコンピュータビジョンシナリオでは、これらの技術ドキュメントを参照して、画像分類や画像のマルチクラス分類のための責任あるAIインサイトを生成および分析する方法を学ぶことができます。
この詳細な解説では、MS COCOデータセット上のオブジェクト検出モデルの予測にエラーがあるかどうかを評価するために、MLプラクティショナーが責任あるAIダッシュボードを使用する方法について説明します。これを行うために、モデルのパフォーマンスに不一致があるデータのコホートを作成し、データの探索中にエラーを診断し、モデルの解釈可能性ツールから洞察を得る方法を学びます。
ダッシュボードのセットアップの前提条件
このチュートリアルは、Azure Machine Learningで責任あるAIコンポーネントをセットアップするための以前のブログ投稿に基づいています。以下の前提条件を満たしてください:
– Azureアカウントにログインまたはサインアップする
– パート1:Azure Machine Learning責任あるAIコンポーネントのはじめに
– パート2:責任あるAIの問題を分析するために機械学習モデルをトレーニングする方法
– 注意:このチュートリアルでは、MS COCOデータセットを使用します。
– このチュートリアルでは、Azure Machine Learning責任あるAIダッシュボードのVision Insightsコンポーネントが必要です。このコンポーネントと技術要件(モデルとデータの形式など)の利用の開始方法については、技術ドキュメントを参照してください。
– 非AutoMLおよびAutoML対応のオブジェクト検出タスクに関連するサンプルノートブックは、azureml-examplesリポジトリで見つけることができます。
1. モデルの概要を使用してエラーを特定する
分析の出発点として、責任あるAIダッシュボードのモデルの概要コンポーネントは、データセットコホートまたはフィーチャコホートごとにオブジェクト検出モデルの総合的なパフォーマンスメトリックを提供します。これにより、エラーの探索が可能になり、全体的なベンチマークと比較してエラー率が高いデータのコホートやデータセット内の過少または過剰表現を特定することができます。
このコンポーネントでは、調査の関心事や観察されたパターンに基づいて新しいコホートを作成し、それらのコホートのモデルのパフォーマンスを比較することで、モデルを調査することができます。MSCOCOデータの例として、画像内の人物を検出する際のオブジェクト検出モデルのパフォーマンスを評価することに興味があるかもしれません。特に、他のクラスとの共起の影響を分析することに関心があります。人物を検出する際、モデルはオブジェクトのピクセルにどれだけ依存し、同じ画像内の共起するオブジェクトクラスのピクセルから推測するのか?
まず、人物と共起するさまざまなオブジェクトを持つ画像のパフォーマンスを比較するためのコホートを作成できます。これらのデータセットのコホートは、次のセクションで説明するデータエクスプローラコンポーネントで作成することができます。
- コホート#1:人物とスキーまたはスケートボードのいずれかを含む画像
- コホート#2:人物とバットまたはテニスラケットのいずれかを含む画像
データセットのコホートペインでは、メトリクステーブルには各データセットコホートのサンプルサイズとオブジェクト検出モデルの選択したパフォーマンスメトリクスの値が表示されます。メトリクスは、選択した方法に基づいて集計されます:コホート全体の平均平均適合率(mAP)、選択したオブジェクトクラスの平均適合率(AP)および平均再現率(AR)。メトリクスの可視化では、データセットコホート間のパフォーマンスメトリクスの比較も視覚的に行うことができます。
図1:「スキーまたはサーフボード」コホートと「バットまたはテニスラケット」コホートの中で、人物クラスの平均適合率と平均再現率がどのように比較され、全体的なパフォーマンスがどのようになるかを評価するために、ドロップダウンメニューから「人物」クラスを選択します。
オブジェクト検出モデルの予測の信頼性を評価するために、IoU(グラウンドトゥルースと予測バウンディングボックスの共通部分)の閾値値を設定することができます。これはエラーを定義し、モデルのパフォーマンスメトリクスの計算に影響を与えます。たとえば、IoUを70%以上に設定すると、グラウンドトゥルースとの重なりが70%以上の予測がTrueとなります。通常、IoUの閾値を上げると、mAP、AP、およびARが低下します。この機能はデフォルトで無効になっており、計算リソースに接続することで有効にすることができます。
図2:興味深いことに、IoUの閾値を70%から80%に増やしたとき、スキーとサーフボードのコホートの人物クラスの平均適合率と平均再現率は下がりませんでした。これは、人物がスキーとサーフボードと共起する画像で、人物クラスをより正確に検出することを示しています。これは、野球バットやテニスラケットのコホートと比較しています。
モデルのパフォーマンスを評価する別の方法は、感度のある特徴ベースのコホートを使用することです。これにより、画像内の人物を検出する際に特定の性別、民族、または肌の色に対してエラーレートが高くなるなどの公平性の問題を特定することができます。 特徴ベースのコホートペインでは、指定した特徴の値に基づいてデフォルトの3つのコホートを自動的に作成し、それらを分割することができます。
図3:画像の平均ピクセル値に基づいて3つの別々のコホートを作成し、各コホートで人物の検出モデルのパフォーマンスを比較しました。ここでは、平均ピクセル値が151.31よりも高い画像は、他のコホートと比較して平均適合率が低いです。
次に、特徴のドロップダウンメニューの横にある「特徴の選択を支援してください」を選択します。ここでは、モデルの公平性を評価するために使用する特徴を調整し、パフォーマンスの比較のための特徴の分割数を決定することができます。
図4:「特徴の選択を支援してください」の下で、デフォルトの3つのコホートから5つのコホートに数を調整しました。
特徴の分割の細かさを高めることで、間違ったコホートをより正確に特定することができます。次のセクションでは、各コホートの内容をデータエクスプローラで視覚的に検査することができます。
図5:ここでは、3つのコホートの前回の分割から導き出された平均ピクセル値が151.31を超える画像の平均精度スコアが低いことが観察されます。これは、151-171の平均ピクセル値範囲の画像ではなく、171.18を超える平均ピクセル値を持つ画像のパフォーマンスが低いためです。
2. エラーの診断
データエクスプローラでのデータのデバッグ
モデルの概要でエラー率が高いデータセットと特徴のコホートを特定した後、データエクスプローラコンポーネントを使用して、さまざまな視点でこれらのコホートをデバッグおよび探索します。画像グリッド上で視覚的に、メタデータを含んだ表形式で、グラウンドトゥルースデータのクラスのセットごとに、および個々の画像にズームインして行います。統計情報だけでなく、予測インスタンスを観察することで、欠落した特徴やラベルのノイズに関連する問題を特定することができます。MS COCOデータセットでは、データエクスプローラでの観察により、類似のオブジェクト特性を持つにもかかわらず、クラスレベルのパフォーマンスの不一致が特定され、原因の調査が開始されます。
画像グリッドでエラーと成功のインスタンスを視覚的に検査する
画像エクスプローラパネルを使用すると、モデルの予測結果におけるオブジェクトのバウンディングボックスを、正しくラベル付けされた予測と間違ったラベル付けされた予測に自動的に分類して探索できます。このビューは、データのエラーの高レベルなパターンを素早く特定し、より詳細に調査するインスタンスを選択するのに役立ちます。
図6:以前の特徴コホートに基づいて、平均ピクセル値が最大値の半分以下である画像インスタンスを視覚的に分析することに興味があるかもしれません。ここでは、その特徴基準で新しいコホートを作成し、その基準で表示される画像インスタンスをフィルタリングします。
メタデータの特徴値以外にも、インデックスや分類結果、複数のフィルタをスタックすることも可能です。その結果、フィルタリング基準に対応するすべての画像インスタンスから成功およびエラーのインスタンスを表示することができます。
図7:フィルタリングと新しいコホートの作成後、このビューでは平均ピクセル値が最大値の半分以下であるすべての画像の成功およびエラーのインスタンスが表示されます。
表形式での予測の探索およびデータのコホートへのセグメント化
視覚的な探索に加えて、テーブルビューパネルでは、モデルの予測を表形式で閲覧できます。各画像インスタンスについて、グラウンドトゥルース、予測クラスラベル、およびメタデータの特徴を識別することができます。
図8:各画像インスタンスについて、画像インデックス、True Yラベル、Predicted Yラベル、およびメタデータの列をテーブルビューで表示できます。
このビューでは、さらに詳細な方法でデータセットのコホートを作成することもできます。分析の初めに使用したスキーやスノーボードを持つ人々の画像をグループ化するために、True Y列で人物とスキーまたはスノーボードのラベルを持つ画像を選択できます。このコホートを「スキーやサーフボードに乗った人々」と名付け、ダッシュボードのすべてのコンポーネントで分析のために保存することができます。
図9:ここでは、True Y列に人物とスキーまたはスノーボードのラベルを持つ各画像インスタンスを手動で選択し、これらの画像を新しいコホートとして保存します。
ダッシュボードはデフォルトですべてのデータを表示するため、新しく作成したコホートの内容を表示するためにフィルタリングすることができます。
図10:「スキーやサーフボードを持つ人々」という新しいコホートにフィルタリングすると、データセット内のスキーやサーフボードを持つ人々に対して6つの成功した予測があります。
クラスレベルのエラーパターンによる公平性の問題を診断する
選択されたクラスラベルごとにエラーパターンに存在する公平性の問題を診断するために、クラスビューペインではモデルの予測をクラスラベルごとに分解します。ここでは、エラーインスタンスは、予測されたクラスラベルのセットが正解データのクラスラベルのセットと完全に一致しない場合に発生します。これにより、モデルの振る舞いに潜在的なパターンを特定し、このワークスルーの最後で探索する可能性のある緩和策を見つけるための個々のインスタンスの調査が必要になる場合があります。
図11:スケートボード、スキー、またはサーフボードと一緒に人が検出される画像を選択することで、このデータセット全体で44枚の画像のうち、人とスキーまたはサーフボードが3枚の画像があることがわかります。これらはすべて人とスキー/サーフボードのオブジェクトが正しく検出された成功したインスタンスです。しかし、人とスケートボードの画像はエラーのインスタンスであり、さらに調査することができます。
個別の画像の詳細な視覚的分析によるエラーの原因の発見
画像カード上の境界ボックスだけでは特定のエラーインスタンスの原因を診断するのに十分ではない場合、各画像カードをクリックして詳細情報を表示するフライアウトをアクセスできます。これには、予測されたクラスラベル、正解のクラスラベル、画像のメタデータ、およびモデルの解釈可能性のための視覚的説明などが含まれます。誤った予測を行うモデルの振る舞いをさらに診断するために、画像内の各オブジェクトについての説明を見ることができます。この詳細は以下のセクションで説明します。
図12:人とスケートボードの画像のエラーインスタンスを調べると、人とスケートボードが正しく検出されていることがわかりますが、ベンチも検出されています。ただし、ベンチは正解クラスラベルのセット(人、スケートボード)に含まれていないため、これについて原因を診断することができます。
説明可能性の洞察を活用したモデルのデバッグ
モデルの解釈可能性の洞察は、特定のオブジェクトの検出につながるモデルの振る舞いを明確にします。これにより、機械学習の専門家は、技術的なバックグラウンドを持つ利害関係者に対して、物体検出モデルの予想される影響と潜在的なバイアスを説明することができます。責任あるAIダッシュボードでは、ビジョン説明手法であるMicrosoft ResearchのオープンソースパッケージであるD-RISE(Detector Randomized Input Sampling for Explanations)によって提供されるビジュアル説明を表示できます。
D-RISEは、物体検出モデルの予測のためのビジュアル説明を作成するためのモデルに依存しない手法です。物体検出のローカリゼーションとカテゴリ化の両側面を考慮することで、D-RISEは、ディテクタの予測に最も貢献する画像の部分をハイライトするサリエンシーマップを生成することができます。勾配ベースの手法とは異なり、D-RISEはより一般的であり、オブジェクトディテクタの内部動作へのアクセスは必要ありません。モデルの入力と出力にのみアクセスが必要です。この手法は、1ステージディテクタ(例:YOLOv3)、2ステージディテクタ(例:Faster-RCNN)、およびビジョントランスフォーマー(例:DETR、OWL-ViT)に適用することができます。モデルベースの解釈可能性手法にも価値があるため、Microsoftは引き続き利用可能な手法のセットを拡張するために取り組んでいます。
D-RISEは、入力画像のランダムなマスクを作成し、それを入力画像のランダムなマスクとともにオブジェクトディテクタに送信してサリエンシーマップを作成します。オブジェクトディテクタのスコアの変化を評価することで、各マスクとのすべての検出を集約し、最終的なサリエンシーマップを作成します。
さまざまな成功とエラーのシナリオにおけるD-RISE注視度マップの解釈
責任あるAIダッシュボードでは、Data Explorerの選択された画像インスタンスのフライアウトでD-RISEパワードの注視度マップが利用可能です。画像中で検出された各オブジェクトについて、ドロップダウンからオブジェクトを選択することで、対応するビジュアル説明を表示できます(オブジェクト番号はクラスラベルの順序に対応しています)。以下の例では、注視度マップが、正しいオブジェクト検出の背後にあるモデルの振る舞いの理解、オブジェクトの共起による潜在的なバイアス、および誤検出に対する貴重な洞察を提供する方法を示します。
次の画像における人物の検出を調査するためには、赤やマゼンタなどのより濃い温かい色を探してください。これらは解釈に重要であり、最も高い注視度ピクセルが人物に集中していることを示します。これは、人物クラスを検出するために、人物の周りのオブジェクトは人物自体ほど重要ではないことを示しています。
図13:スキーを履いた人物の場合、スキーの大部分には高い注視度ピクセルがなく、テニスをしている人物の場合、色鮮やかなピクセルは人物とラケットの一部に向かっていますが、最も濃く着色された(マゼンタ)ピクセルはテニスラケットではなく人物に焦点を当てています。図15のテニスラケットの注視度マップを見ると、最も顕著なマゼンタのピクセルは人物ではなくラケットの周りに集中していることがわかります。
同じ画像では、人物と並んで他のオブジェクトも正しく検出されました。しかし、注視度ピクセルによって、これらの正しい予測においてもさまざまなオブジェクトの共起による混乱要因が明らかになる場合があります。
図14:スキーの検出では、人物の足に注視度ピクセルが集中し、サーフボードの検出では水面に注視が向けられ、テニスラケットの検出では人物に注視が向けられていることがわかります。これは、さまざまなオブジェクトの共起が予測にバイアスを形成する可能性があることを意味します。
壁にスキーのペアの画像があった場合、人物がいなくてもスキーは正しく検出されるでしょうか?人物や水がないサーフボードの画像があった場合、サーフボードは正しく検出されるでしょうか?他のクラスでもどのような不適切なパターンが現れるのでしょうか?Microsoft Researchの「説明による誤ったパターンの発見と修正」で、このシナリオと緩和策について詳しく読むことができます。
図15:この壁にスキーのペアの画像では、オブジェクト検出モデルがサーフボードを誤って最上位の検出として識別しています。サーフボードの予測のD-Rise注視度マップを見ると、最も顕著なピクセルがスキーの一方にのみ集中しており、全体のオブジェクトに焦点を当てていないため、誤った予測が生じています。
D-RISE注視度マップは、さまざまなオブジェクトの共起と配置が貢献要因となる誤検出にも洞察を提供します。これにより、トレーニングデータの改善のために、他のオブジェクトとの多様な位置や共起を持つ画像を含めるなどの緩和策が促進されます。
図16:ここでは、モデルは野球のグローブだけでなく、個人とスポーツボールのクラスを検出できません。野球のグローブの検出に対する注視度マップを見ると、高い注視度ピクセルがボールに集中していることがわかります。これは、両オブジェクトが近くにあるため、野球のグローブとしての誤検出ではなく、スポーツボールとしての誤検出が生じる可能性があります。
モデルの解釈可能性の洞察を緩和戦略に翻訳する
視覚的な説明は、モデルの予測におけるパターンを明らかにし、性別や肌の色の属性に基づいてクラスの予測が偏っている場合など、フェアネスに関する懸念がある場合に、それを明らかにすることができます(例:女性に関連する調理器具、男性に関連するコンピュータ)。これにより、オブジェクト検出モデルがバイアスを反映したオブジェクト間の見かけの相関関係を学習することを防ぐための緩和策(データの注釈付け、データ収集の改善など)が提案されることがあります。前の例に関連するように、人物が存在しないスキーを検出できないモデルは、トレーニングデータに存在しない人物のいないスキーの画像が増えることで改善される可能性があります。オブジェクトの誤検出に関連する洞察も、トレーニングデータの改善を促すための緩和策を推奨します。これには、オブジェクトの位置や他のオブジェクトとの共起を含む多様なオブジェクトの画像を含めることがあります。
結論
Azure Machine Learningの責任あるAIダッシュボードを使用して、MSCOCO上のオブジェクト検出モデルの予測について見てきましたが、このダッシュボードは以下のような方法でMLの専門家がエラーの調査を支援するためにさまざまな貴重なツールを提供しています:
- モデルの概要を活用してデータセットや特徴の群にわたるモデルのパフォーマンスを比較する
- データエクスプローラを使用してエラーパターンを調査し、オブジェクトの共起がクラスの予測に与える影響などのフェアネスの問題を調査する
- モデルの解釈可能性のためのD-RISEサリエンシーマップを通じてモデルの振る舞いにあるバイアスを明らかにする
これらの洞察を活用して、ユーザーは社会的なステレオタイプやバイアスがオブジェクト検出モデルに意図せず影響を与える可能性がある視覚データセット(画像、注釈、メタデータ)を最小限に抑えるための情報に基づいた緩和策を実行することができます。ユーザーはまた、ステークホルダーとの調整プロセスや信頼の構築のために、自分の調査結果を共有することもできます。コンピュータビジョンは私たちの日常生活に深く組み込まれていますが、展開されたモデルが透明で公正で責任があり、包括的で安全であることを確保するために、機械学習開発者にはまだ多くの課題が残されており、オブジェクト検出のための責任あるAIダッシュボードはその方向への貴重な第一歩です。
私たちのチーム
オブジェクト検出のための責任あるAIダッシュボードは、Microsoft Research、AI Platform、およびMAIDAP(Microsoft AI Development Acceleration Program)の連携による製品です。
Microsoft ResearchのBesmira NushiさんとJimmy Hallさんは、AI PlatformのRAIツーリングチームと協力して、MLの失敗に対する深い理解と説明を得るための新しい技術の研究調査を主導しています。RAIツーリングチームには、Ilya Matiachさん、Wenxin Weiさん、Jingya Chenさん、Ke Xuさん、Tong Yuさん、Lan Tangさん、Steve Sweetmanさん、Mehrnoosh Samekiさんなどがいます。彼らは、責任あるAIを民主化することに情熱を持ち、Azure Machine Learningエコシステムの一環としてオープンソースのツールをコミュニティに提供してきました(FairLearn、InterpretMLダッシュボードなどの以前の例もあります)。オブジェクト検出シナリオのためのRAIダッシュボードの製品化は、MAIDAPのチームによっても推進されており、Jacqueline Maureenさん、Natalie Isakさん、Kabir Waliaさん、CJ Barberanさん、Advitya Gemawatさんなどが参加しています。MAIDAPは最近の大学卒業生のためのローテーショナルプログラムであり、Microsoft内のさまざまなチームとの協力でスケールの大きな機械学習機能を開発しています。
元の記事はこちらから。許可を得て再投稿されました。
著者について
Wenxin Weiは、Microsoft Azure AIの責任あるAI製品マネージャです。テキスト、画像、生成モデルのRAIツールを推進する専門知識を持ち、革新的で倫理的なAIソリューションの提供に尽力しています。クロスファンクショナルチームとの協力により、Wenxinは透明性のある、説明可能な、プライバシーに配慮したAIシステムの開発を確実に行っています。統計学とAIのバックグラウンドに加え、データ駆動型のアプローチが彼女には技術とユーザーのニーズとのギャップを効果的に埋めることを可能にしています。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- Amazon SageMakerを使用して、Hugging Faceモデルを簡単にデプロイできます
- Hugging Face Transformers と Amazon SageMaker を使用して、GPT-J 6B を推論のためにデプロイします
- 学生アンバサダープログラムの応募受付が開始されました!
- 倫理と社会のニュースレター#1
- 倫理と社会のニュースレター#3:Hugging Faceにおける倫理的なオープンさ
- フリーティアのGoogle Colabで🧨ディフューザーを使用してIFを実行中
- Hugging Faceは、Microsoftとの協力により、Azure上でHugging Faceモデルカタログを開始します