機械学習システムにおけるデータ品質の維持

'Maintaining Data Quality in Machine Learning Systems'

データ | マシンラーニング | QA

マシンラーニングの見えない基礎に関する推奨事項

Photo by Battlecreek Coffee Roasters on Unsplash

マシンラーニング(ML)の魅惑的な世界では、複雑なアルゴリズムや魅力的な視覚化、印象的な予測モデルを考案する魅力に取り憑かれることは非常に簡単です。

しかし、建物の耐久性が見える構造だけでなく、見えない基礎にも依存するように、機械学習システムの効果はしばしば見落とされるが完全に重要な要素に依存しています。それはデータの品質です。

上流データ品質保証の重要性

MLのトレーニングと推論のパイプラインを蒸気機関車の旅と考えてみましょう。

機関車自体であるMLシステムの健康を維持することは重要ですが、軌道が危険にさらされている場合はどうでしょうか?

システムに供給されるデータの品質が上流で保証されない場合、それは破損したレールトラックに似ています。特に大規模な運用時には、列車は遅かれ早かれ脱線する運命にあるでしょう。

そのため、データ品質を最初の段階、つまりソースで監視することが重要です。

まるで旅の前に軌道を調べる検査官のように、データの起点でデータを詳細に調査する必要があります。

これは「データ契約」として知られる概念を通じて実現できます。

データ品質の維持におけるデータ契約の役割

各ゲストが料理を持ち寄るポットラックディナーに招待されたと想像してください。

調整がないと、デザートだけで構成されたごちそうになってしまうかもしれません!

同様に、データの広大な領域では、データプロデューサーとデータ消費者の間にデータの品質基準を満たすことを保証する契約(つまり、データ契約)が必要です。

この契約は、次のようなメタデータの非網羅的なリストを含む設計図です:

  1. スキーマ定義:フィールド、データ型などのデータ構造の詳細
  2. スキーマバージョン:変更や改善に対する一貫性を確保します
  3. サービスレベル契約(SLA)メタデータ:期待管理のためのSLAの仕様
  4. セマンティクス:データの意味と解釈を明確にします
  5. 系統:データの出所から宛先までの経緯を記録します

データ契約を強制するアーキテクチャを通じてこれをよりよく理解しましょう。

データ契約の活用例: アーキテクチャの例

製造の組み立てラインを思い浮かべてみてください。各作業者は自分の役割と必要な基準を知っています。

さて、このコンセプトをデータアーキテクチャに適用してみましょう。

  1. スキーマの変更はまずバージョン管理で行われ、承認後にデータ生成アプリケーション、データベース、および中央のデータ契約レジストリに実装されます。これはデータの生成段階でデータ契約の強制が理想的に始まる場所です。後続の検証ステップは、低品質のデータがシステムに侵入するのを防ぐための保護手段として機能します。
  2. データは、アプリケーションサービスによって直接発生するイベントや変更データキャプチャ(CDC)ストリーム用の生データトピックなどのメッセージングシステムにプッシュされます。
  3. Flinkアプリケーションは、生データストリームからデータを消費し、契約レジストリのスキーマと照合します。
  4. 契約を満たさないデータは、組み立てラインでの不良品に似て、デッドレタートピックに送られます。
  5. 検証済みのデータは、パッケージングと出荷の準備ができた品質承認済みの商品と同様に、検証済みデータトピックに承認されます。
  6. 検証済みのデータは、オブジェクトストレージに送られ、もう一度検証され、二重チェックのメカニズムとして機能します。
  7. オブジェクトストレージのデータは、スケジュールに基づいて追加のSLAに対して検証されます。この審査に合格した後、データは分析目的に変換およびモデル化されるデータウェアハウスにプッシュされます。
  8. ここから、モデル化およびキュレーションされたデータは、二つのパスを取ります。さらなるフィーチャーエンジニアリングのためにフィーチャーストアシステムに送られ、リアルタイムのフィーチャーは検証済みデータトピックから直接取り込まれます。この段階でのデータ品質の確保は、SLAに対するチェックの困難さにより、課題となることがあります。
  9. この高品質のデータは、マシンラーニングトレーニングパイプラインで利用されます。
  10. 同じデータは、推論でのフィーチャーサービングにも使用されます。

MLシステムは、データドリフトやコンセプトドリフトのようなデータ関連の問題にも影響を受ける可能性があることを忘れないでください。

これらは「サイレントな失敗」とされており、監視はできますが、通常はデータ契約に含まれていません。

後の記事でデータドリフトについて詳しく説明します。

まとめ

機械学習システムの隠れた強さは、それらを支えるデータの信頼性にあります。

データ品質は、地味ですが、MLプロジェクトの成功において重要な役割を果たします。

データ契約のコンセプトは、この重要な側面を見落とさないようにします。

忘れずに、最速の列車や最も印象的な駅を建設するだけでなく、軌道の品質も同様に重要です。

どれだけ洗練された機械学習システムであっても、高品質なデータがなければ、その進展は混乱と潜在的な脱線で満ちたものになります。

これを念頭に置き、データ品質が機械学習の取り組みにおいて適切な重要性を持つことを確認してください。

なぜなら、最もスリリングなMLの進展は、革命的なアルゴリズムだけでなく、信頼性の高い高品質なデータにも基づいて構築されるからです。

この投稿を楽しんでいただけましたか?月額$5で、VoAGIへの無制限アクセスを解除し、私と他のお気に入りの執筆者を直接サポートすることができます。そのため、本当にありがとうございます!

VoAGIのメンバーとして、会費の一部があなたが読む執筆者に支払われ、すべてのストーリーに完全アクセスすることができます…

david-farrugia.medium.com

連絡を取りたいですか?

このトピックやAI、データに関するご意見をお聞かせいただきたいです。

お問い合わせは、[email protected]までメールでお願いします。

Linkedin

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more