コンピュータービジョンによる車両損傷検出の構築方法
コンピュータービジョンによる車両損傷検出の方法の解説' (Explanation of the method for vehicle damage detection using computer vision)
コンピュータビジョンは、人工知能の重要な要素として、保険業界でますます重要性を増しています。その導入により、プロセスの自動化、コスト削減、高い精度、および顧客体験の向上など、多様な利点がもたらされます。
コンピュータビジョン技術は、一定の範囲で手動の検査の代替を含む多くの機会をもたらします。そのため、Intelliartsチームは自動車の損傷評価プロジェクトに取り組むことを有望と考えました。
この探索では、Intelliartsチームがコンピュータビジョンを使用して自動車の損傷検出の課題を解決するための経験について探求します。具体的なアルゴリズムを調査し、モデルのトレーニングと評価プロセスを明らかにし、コンピュータビジョンプロジェクトの人気のあるアルゴリズムの潜在的な利点を評価します。
自動車損傷検出のためのアルゴリズムはどれですか
この目的のために、エンジニアは画像セグメンテーションアルゴリズムを利用しています。その機能は、色、テクスチャ、強度、または形状などの特定の視覚的特徴に基づいて、画像の特定のピクセルに特定のクラスを指定することです。車両検査の場合、クラスは損傷があるかないかです。画像セグメンテーションの目標は、画像の表現をより意味のある形式に単純化または変更し、オブジェクトを背景から分離して分析しやすくすることです。
- コヒアAIがコヒアのEmbed v3モデルを公開:信頼できるMTEBとBEIRベンチマークに基づく最先端のパフォーマンスを提供
- 「KOSMOS-2:Microsoftによるマルチモーダルな大規模言語モデル」
- (CodeGPT AIコミュニティで話題となっている新たなコード生成ツールにご紹介します)
画像セグメンテーションの主なアプローチは次のとおりです:
インスタンスセグメンテーション
このコンピュータビジョンの技術では、個々のオブジェクトを識別し、一意の識別子でラベル付けします。インスタンスセグメンテーションの最初のステップはオブジェクトの検出です。このフェーズでは、コンピュータビジョンアルゴリズムが画像内のすべてのオブジェクトを検出し、各オブジェクトに対してバウンディングボックス(矩形または正方形の図形)を提供します。バウンディングボックス内の領域で行われる分類の間、アルゴリズムは特定のクラス(車、木、人など)に興味のある特定のオブジェクトがバウンディングボックス内に存在する可能性の確信度または尤度を計算します。
技術の2番目のステップでは、アルゴリズムは各バウンディングボックスでセグメンテーションを実行し、各ピクセルにラベルを付けてオブジェクトに属するかどうかを示します。
インスタンスセグメンテーションの更なる要件は、ピクセルごとのマスクの使用です。これらはバイナリイメージであり、画像内のオブジェクトまたは興味領域の位置を識別するために使用されます。マスク内の各ピクセルには、そのピクセルがオブジェクトまたは興味領域に属するかどうかを示す値0または1が割り当てられます。ピクセルごとのマスクは、画像を注釈付けすることで手動で生成することができます。
このアルゴリズムの動作方法により、同じオブジェクトの複数のインスタンスが、重なっていたり他のオブジェクトに部分的に隠されていたりしていても区別されます。
意味セグメンテーション
意味セグメンテーション技術は、画像を複数のセグメントに分割し、それぞれが画像内の特定のオブジェクトまたは興味領域に対応し、個別に分類することを含みます。ピクセルの類似性に基づいて画像を任意の領域に単純に分割する従来の画像セグメンテーション方法とは異なり、意味セグメンテーションは各セグメントを意味のあるセマンティックラベル(人、車、建物、木など)と関連付けることを目指します。
意味セグメンテーションは、同じクラスに属する複数のオブジェクトを単一のエンティティとして扱います。必要に応じて画像内のすべての人、すべての車、またはすべての建物の境界を示すことができます。意味セグメンテーションは、損傷を区別せずにのみ検出することができることに注目することが重要です。一方、インスタンスセグメンテーションは、複数の異なる損傷を区別することができます。
訓練後、意味セグメンテーションモデルは、ネットワークを通じて新しい画像をセグメンテーションするために伝播させ、ピクセルレベルのセグメンテーションマスクを生成するために使用できます。後者は、オブジェクトの各インスタンスごとに複数のマスクを生成する代わりに、画像内の各ピクセルに対してラベルを割り当てる点で、インスタンスセグメンテーションのピクセルごとのマスクと同様に機能します。
実際の生活インスタンスと意味セグメンテーションアルゴリズムとの比較は、以下のセクションで提供されています。
訓練済みモデルのパフォーマンス評価のための機械学習メトリック
機械学習メトリックは、モデルが与えられたタスクをどれだけうまく解決しているかの定量的な尺度です。これらはモデルのパフォーマンスを評価し、モデルの強みと弱点についての洞察を提供します。
機械学習メトリックの値は、モデルが以前に使用されなかったデータセットでテストした後の結果に基づいて計算されます。これにより、エンジニアはモデルの実生活データでの潜在的なパフォーマンスを評価することができます。得られた結果は、エンジニアが満足のいくパフォーマンスを示すまでモデルを何度も再作成する必要がある場合に、さらなる意思決定をガイドします。
以下は、損傷検出タスクのモデルのテスト中に使用するべき主要な画像セグメンテーションメトリクスのリストです:
1. MIoU(平均交差統合率)
このメトリクスは、データセット内の各クラスの予測されたセグメンテーションマスクと正解のセグメンテーションマスクの平均的な重複を測定します。MloUは、各クラスのIoUを計算し、すべてのクラスで平均を取ることによって計算されます。IoU = クラスごとの予測されたマスクと正解のマスクの交差領域/クラスごとの予測されたマスクと正解のマスクの統合領域
2. ピクセル精度
このメトリクスは、モデルによって正しく分類された画像内のピクセルの割合を測定します。ピクセル精度 = 正しく分類されたピクセルの数/画像内の総ピクセル数
3. Dice係数
画像セグメンテーションでは、Dice係数は予測されたセグメンテーションマスクと真のセグメンテーションマスクのピクセルの重複を0から1の尺度で測定します。0は重複なしを示し、1は完全一致を示します。Dice係数 = 両方のマスクによって正しく分類されたピクセルの数×2 / 両方のマスクの総ピクセル数
以下は、インテリアーツチームがインスタンスセグメンテーションと意味セグメンテーションモデルのパフォーマンスを調査した結果であり、テスト結果を測定するためにMloUとDice係数メトリクスを使用しました。
リアルライフのAIアーキテクチャの例
適切なAIアーキテクチャを選択することは、どのMLプロジェクトにおいても重要なステップです。適切に選ばれたソリューションは、セグメンテーションプロセスの精度の向上、処理速度の向上、リソース使用の効率化といった成果に寄与することができます。また、リアルタイムまたはほぼリアルタイムのアプリケーションに向いているアーキテクチャもありますし、大規模なデータセットのバッチ処理に適しているものもありますので、慎重に考慮する必要があります。
広くテストされ、非常に人気のあるいくつかの画像セグメンテーションアーキテクチャが存在します。その中にはMask R-CNNやU-netがあります。これらはインテリアーツチームが自動車の損傷検出タスクのインスタンスセグメンテーションと意味セグメンテーション技術のテストに使用したアルゴリズムです。エンジニアは、大規模なデータセットで事前トレーニングされたモデル、つまり事前に学習済みの重みを利用することができます。これにより、リソースを消費するモデルの完全なトレーニングは不要になります。
それでは、これらのアルゴリズムについて詳しく見ていきましょう。
Mask R-CNN
Mask R-CNN(マスクを使用した領域ベースの畳み込みニューラルネットワーク)は、物体検出とインスタンスセグメンテーションのための深層学習アーキテクチャです。これはFaster R-CNN物体検出モデルに基づいており、セグメンテーションの一部、つまり入力データ上で動作する層のサブセットを持っています。
Mask R-CNNは2つのステージで動作します。最初のステージでは、リージョンプロポーザルネットワーク(RPN)を使用して、オブジェクトが含まれていると考えられる画像の領域を生成します。2番目のステージでは、各プロポーザルに対してクラスラベル、境界ボックス、マスクを同時に予測することによって、オブジェクトの検出とセグメンテーションを行います。
U-Net
U-Netは、画像セグメンテーションタスクに特化した畳み込みニューラルネットワークアーキテクチャです。脳腫瘍のセグメンテーション、セルのセグメンテーション、肺のセグメンテーションといった医療画像のセグメンテーションタスクの解決策として非常に人気があります。また、自動運転の道路セグメンテーションなど、他の画像セグメンテーションアプリケーションにも適応されています。
U-Netアーキテクチャは、ダウンサンプリングとアップサンプリングの操作によって形成される特徴的な「U」の形状を持っています。ネットワークには、コンテキストを捉えて入力画像をダウンサンプリングする収縮パスと、正確な位置情報を取得し、フィーチャーマップをアップサンプリングする拡張パスがあります。要するに、このネットワークはセグメンテーションされるオブジェクトについての詳細な情報を回復するだけでなく、画像のコンテキストとグローバルな構造も捉えることができます。
インスタンスセグメンテーション(Mask R-CNN)vs.意味セグメンテーション(U-Net):リアルライフの観察に基づく比較
最近の研究では、インテリアーツチームが画像セグメンテーションタスクに使用される2つの人気のあるニューラルネットワークアーキテクチャ、Mask R-CNNとU-netをテストしました。両方のコンピュータビジョンアルゴリズムは、同じデータセットを使用してトレーニングおよびテストされました。公開されているCoco car damage detectionおよびSegmeイメージデータセットから事前にクリーニングされ、パッケージ化されたデータを使用しました。
Mask R-CNNはより複雑なアーキテクチャを持ち、領域提案の処理を行うため、テストの結果、セマンティックセグメンテーションベースのアルゴリズムであるU-netの方が優れたパフォーマンスを示しました。
U-netは、AIアルゴリズムを使用して車の損傷を特定し、その大きさを評価するテストの最初の部分で、最適な結果を示しました。さらに、Intelliartsのエンジニアがコンピュータビジョンモデルを使用して、損傷した車の部品を特定し、認識する2番目の部分でも、Mask R-CNNも優れたパフォーマンスを発揮しました。この結果から、セマンティックセグメンテーションモデル、特にテストされたU-netは、車両損傷査定において現在の最良の選択肢であると結論付けられました。
訓練されたAIモデルの対話的なプレイグラウンドを提供するオンラインデモを試してみることをお勧めします。このデモでは、コンピュータビジョンを使用したモデルが入力画像やビデオフレームに基づいて車の損傷を検出する能力を示しています。
AIモデルの訓練方法
深層ニューラルネットワークは、コンピュータビジョンおよびその他のタスクの解決に成功しています。この技術を基にした最先端のソリューションは、保険業界およびその他の分野で成功を収めています。深層学習のMLモデルの訓練には、以下のステップが含まれます。
データの準備
AIアルゴリズムは、トレーニングするための写真やビデオなどのデジタルデータのかなりの量を必要とします。データの量と品質と訓練結果には、強い相関関係があります。ゴミ入りゴミ出し(GIGO)という概念があるほどです。つまり、無駄な入力データは無駄な出力を生み出すということです。そのため、広範なデータセットを見つけるか準備することをお勧めします。車両査定の場合、さまざまな角度、異なる照明などから、さまざまな損傷がある高品質の損傷車両のサンプルが必要です。
データの注釈付け、つまりAIアプリケーションのためのデータの分類とラベリングは、モデルが視覚材料中のデジタル情報が具体的に何であり、なぜ重要なのかを理解するために使用されます。車両査定のためのAIモデルの訓練では、以下の2つの方法で注釈付けられたデータセットが必要です。
- 損傷検出: 異なるタイプの損傷の多種多様なセットが収集される場合は、ポリゴンまたはブラシを使用して関心のあるオブジェクトに関連するメタデータをラベル付けおよびタグ付けする必要があります。モデルが自動的に生成するため、バウンディングボックスの追加は必要ありません。不要なバウンディングボックスはオーバーラップを作り出し、訓練中のモデルを混乱させる可能性があることにも言及しておきましょう。
- 車両部品の検出:このデータの注釈付けは、損傷検出の必須の並行ステージです。タグ付けによって、モデルは損傷を受けた特定の車両部品を認識し、好ましい測定単位でその面積を計算するのに役立ちます。
画像のラベリングは、コンピュータビジョンアプリケーションのためのAIモデルのトレーニングにおいて、ほとんど時間とリソースがかかる作業の一つです。ピクセル単位でオブジェクトを選択し、正確にオブジェクトやそのさまざまな属性や特徴を説明する正しいラベルを割り当てる作業です。手作業によるラベリング方法では、人間が画像に注釈を付けます。ただし、機械学習アルゴリズムの支援を受ければ、この作業を多少自動化し、簡素化することができます。
私たちは、上記のオープンソースのデータセットから既に正しくラベル付けされた画像を使用しました。これは、事前にクリーンアップされ、パッケージ化されたデータの使用と考えられます。データの収集方法には、カスタムデータのクラウドソーシング、プライベートコレクションの構築、およびウェブスクレイピングやウェブクローリングを使用したデータの自動収集などがあります。
データの収集には、以下のベストプラクティスがあります。それには、MLプロジェクトの問題と目標の特定、データパイプラインの確立、ストレージメカニズムの確立、収集したデータの評価、およびプロジェクトの目標に合わせた簡潔なデータの収集が含まれます。
訓練
データ収集と注釈付けが完了したら、準備された訓練データセットをコンピュータビジョンモデルに入力します。この段階では、モデルが誤った結果を出すエラーを特定し、後続の調整を行うことが重要です。これにより、誤ったバイアス/バリアンスのトレードオフバランスを避け、過学習や適合不足の問題が生じるのを防ぐことができます。
適合不足の問題は、モデルが入力と出力変数の間の関係を正確に捉えられない場合に発生します。モデルを簡素化することで解決できます。
過学習の問題は、モデルが訓練データに非常に精通しているため、アルゴリズムが制限され、バイアスがかかる状況です。そのため、データに大きな不一致がある場合に機能しなくなります。この問題は、モデルを複雑化させる、訓練データセットを拡大する、またはデータ拡張を使用することで解決できます。
初期データセットでのトレーニングの後、モデルは検証フェーズに進みます。このフェーズでは、AIアルゴリズムは検証データセットと連携し、エンジニアがモデルの性能に関する仮定を証明することが可能となります。この段階で不足や考慮しきれない変数、その他のエラーが明らかになるべきです。
テスト
トレーニングと検証が成功裏に終了した後、コンピュータービジョンモデルを最後にテストする必要があります。通常、最終またはホールドアウトセットには、モデルがまだ扱っていないデータが含まれています。データはラベル付けされているため、エンジニアはモデルの正確性を計算することができます。モデルはこのようなデータセットで一度だけ起動され、結果は実世界のデータでモデルが表示する潜在的な正確性と見なされます。トレーニングされたモデルが正確な結果を適切な一貫性で生み出す能力があるかどうかを確認することは重要です。
通常、開発者は別のデータセットを用意したり、モデルを修正する必要があるため、トレーニングプロセス全体を何度も繰り返します。複数回の試行の後、最適な結果を示すモデルが選択され、準備が整ったと見なされます。
Intelliartsによる2モデルAIソリューション
Intelliartsのエンジニアは、車両損傷検出に使用される1つのAIモデルと、車両部品検出に使用される別のAIモデルからなるソフトウェアソリューションを構築しました。そのため、ユーザーが損傷した車の画像を入力すると、損傷を示し、影響を受けた車の部品を別々に特定します。これにより、画像処理の結果として特定の損傷と指定された車の部品が特定されます。それらが交差する場合、ソリューションの出力結果として「左ドア – へこみ」といった形で表示されます。その後、修理費用の推定が含まれた事前に準備された画像データベースの類似ケースと比較されます。
車両損傷検出のAIソリューションの価値
完成したソフトウェアソリューションは、特定の車の部品を識別し、金属またはガラスの損傷や車の部品の変位または交換など、複数のタイプの損傷を検出および分類し、損傷の深刻度を評価し、予想される修理費用を示すことができます。訓練されたAIモデルの機能性は、わずかな人間の監視でほとんどの簡単な車両損傷保険請求を解決するのに十分なはずです。
言うまでもなく、特定のアルゴリズムまたはアルゴリズムの組み合わせの選択、AIモデルのトレーニング、および完成したソフトウェアソリューションの構築は、一連の専門的なタスクの実行と緊密に関連しているべきです。
製品所有者にとって、コンピュータービジョンプロジェクトの最終目標は、テクノロジーを保険業界に適用し、以下のビジネス上の利点を得ることです:
- コスト最適化:自動検出は、手動での検査に比べてはるかに低コストで実行できるため、保険会社には大幅な節約がもたらされます。
- 労働集約的なタスクの削減:車両検査の大部分を自動化することで、保険会社のスタッフの作業量を減らし、他の重要なタスクに集中することができます。
- 正確性の向上:自動システムはより正確に車両の画像を分析でき、人間の検査員が見落とす可能性のある小さな損傷も特定できます。
- クレーム処理の迅速化:自動車損傷検出により、クレーム処理時間を短縮することができ、保険会社はより早い解決を実現できます。これにより、お客様の満足度と維持率の向上が期待できます。
最後に
車両の検査は保険業界における労働集約的な側面です。特に車両の損傷評価を含む場合には、コンピュータービジョンの手法を活用してクレーム処理を効率化することができます。画像セグメンテーションアルゴリズムは、そのようなタスクの実行において重要な役割を果たします。しかし、重要なステップは最適なニューラルネットワークアーキテクチャ(Mask R-CNN、U-netなど)を選択し、データ注釈技術を用いた徹底的なトレーニングとその後の性能評価を行うことです。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles