「ゼロから効果的なデータ品質戦略を構築するためのステップバイステップガイド」

Step-by-step guide to building an effective data quality strategy from scratch.

ユーザの期待に基づいた解釈可能なデータ品質フレームワークの構築方法

Rémi Müller氏による写真(Unsplash)

データエンジニアとして、私たちは提供するデータの品質に責任を持つべきです(または持つべきです)。これは新しいことではありませんが、データプロジェクトに参加するたびに私は同じ質問を自問自答します:

  • いつデータ品質に取り組むべきですか?
  • データ品質にどれくらい気を使うべきですか?
  • データ品質のどの側面に焦点を当てるべきですか?
  • どこから始めればいいですか?
  • データが消費に適しているのはいつですか?
  • ステークホルダーに対してデータ品質をどのように強調すればいいですか?

完璧なものは存在せず、ビジネスにもたらすデータのすべての価値を示すための勢いを失いたくありません。品質と費やす時間のバランスを見つける必要があります。これらの質問に答えることが、バランスを見つけるための鍵です。

この記事の目標は、ビジネスのニーズを満たす効果的なデータ品質戦略を構築するために必要なすべての回答を提供する、ステップバイステップのガイドを共有することです。このプロセスには、関係者、製品オーナー、開発者との共同作業、潜在的なユーザとのデータ品質メトリックの共有が含まれます。

さらに、データのマーケティングキャンペーンのレポートツールにデータを提供するデータ製品のために開発された実践的な成果物を紹介します。これにより、戦略が最終的にビジネス価値に翻訳されることが示されます。

最後に、データにアクセスする前にデータ品質のレベルをユーザに共有するためにデータメッシュの実装内のデータ製品がどのように役立つかについて説明します。

まず最初の質問から始めましょう

いつデータ品質に取り組むべきですか?

最初の質問に対する答えを持った内なる声を持っていると思います:最初の日から。データ品質の期待に取り組んで理解することは、信頼と早期のユーザの採用を確保するための鍵です。これにより、開発を進めながら改善を構築するための早期のフィードバックを受け取ることができます。また、データの生産者として、初期の品質の問題によってデータの信頼性が損なわれる状況に陥りたくありません。

データ品質にどれくらい気を使うべきですか?

この質問はユースケースに依存します。これに答えるために、チームはデータが解決する必要のあるニーズの性質を理解する必要があります。出発点は、データの使用方法を知ることです。

ステークホルダーや事業所有者とセッションを行い、データの使用方法について洞察を得ることができます。この共同作業により、ユーザの実際のニーズと期待に合致したデータ品質基準を設定します。

これが実践的な例である、マーケティングキャンペーンのレポートツールのためのデータ統合の成果物になります

データ使用パターンの例(著者による画像)

この例から得られる情報は以下です:

  • データへのアクセス頻度とアクセスする人数は、提供する必要のあるパフォーマンスのタイプを理解するためのものです
  • データの完全性と正確性のレベルは、データパイプラインに追加する必要のある一意性、完全性、一貫性の管理のチェックを理解するためのものです
  • データの新鮮さのレベルは、データをリフレッシュするためにどれくらい頻繁に変換を実行する必要があるかを理解するためのものです
  • データのアクセス可能な時期は、提供する必要のある可用性を理解するためのものです

サービスレベル目標

このプラクティスの最終的な成果は、サービスレベル目標(SLO)の基準を定めることです。データ品質において、サービスレベル目標(SLO)は、特定のデータサービスやプロセスのデータ品質の期待レベルを定義する具体的で測定可能な目標です。SLOは、データが事前に定義された品質基準を満たし、ユーザや関係者のニーズと期待に合致することを確認するために、数量化可能なメトリックと閾値を設定します。

私たちのシナリオでは、定義できるSLOの一つは、データを6時間ごとに再計算することです。データがこの閾値より古い場合、この特定のSLOを満たしていません。

どのデータ品質の側面に焦点を当てるべきですか?

今、チーム内で抽象化レベルを下げてデータ品質の次元について考えることができます。データ品質の次元は、特定の特性を持つデータ品質の特定の側面を表します。各データ品質の次元は、データの特定の側面に焦点を当て、改善が必要な領域を特定するのに役立ちます。

これらの次元の一部は次のとおりです:

  • 正確性:データの値が現実を反映し、エラーがない程度。
  • 完全性:欠損値のない、すべての必要なデータ要素が存在するかどうかの測定。
  • 整合性:異なるソース間または同じデータセット内でのデータの調和と一貫性のレベル。
  • タイムリネス:データの最新性の測定。
  • ユニークネス:各レコードがデータセット内で一意であり、重複していない程度。

データの使用パターンとSLOを理解することで、取り組むべき次元を特定し、それぞれがシナリオにもたらす実際の価値を把握することができます。これにより、取り組むべきデータ品質の最も関連性のある側面を特定し、具体的なアクションを考え始めることができます。

Data quality dimensions directly linked to business real value in our example (image by the author)

この例では、使用パターンセッションで特定されたデータ品質の次元を、それが直接提供するビジネスの価値と関連付けました。

どこから始めればよいですか?

データ品質の次元が特定され、それに対応するビジネスの価値が把握されたら、チーム内で協力的なセッションを行い、各次元を効果的に満たすための具体的で測定可能な目標を設定します。これらの目標は、データ品質のテストを変換フェーズに追加したり、ギャップ分析を実施したり、堅牢なデータクリーニングプロセスを組み込んだりするなどの具体的なタスクの定義の基礎となります。これらの明確に定義された目標にデータ品質の取り組みを合わせることで、アクションがビジネスのニーズに直接対応し、全体的なデータ品質が向上することを確認します。

プロセスで見つかったすべてのアクションは、バックログに追加され、チームによって優先順位が付けられます。最終的な結果は、ビジネスのニーズに適したデータ品質フレームワークであり、進捗状況を追跡できるようになります。

Data quality framework with our goals and actions to ensure business value of our data in our example (image by the author)

利害関係者にとって見やすく解釈しやすいデータ品質フレームワークを持つことにはいくつかの利点があります:

  • 組織内でデータ品質が管理され、監視され、改善されている方法を明確に示す
  • データ管理の実践における信頼性透明性を促進する
  • データ品質基準の誤解の可能性を減らす
  • データ品質とそのビジネスへの重要性へのチームと組織の取り組みを示す。

データが使用に適しているのはいつですか?

フレームワークがこれに答えます。ビジネスの期待を満たすためにデータを準備するためにすべての目標を達成したら、ユーザーに提供し、さらなる改善のためのフィードバックを求める自信を持つことができます。

作業の入力は、使用パターンセッションで特定されたサービスレベル目標でした。データがこれらの目標に合致している限り、まだ要件を満たしていないという理由で保持する必要はありません。

データを公開したらどうすればよいですか?

モニタリング

データ品質戦略で定義されたすべてのアクションと目標は、積極的にモニタリングする必要があります。アラートを作成し、さまざまなチャンネルを通じて通知できるモニタリングツールを使用することは、早期検出のために不可欠です。

また、インシデントを記録し、その影響を受ける次元に基づいて分類することも重要です。この実践により、特定の領域に注意を集中させ、戦略における潜在的なギャップを特定することができます。さらに、インシデントレポートを保持することで、特定の領域での作業が時間の経過とともにインシデントの数を減らすのにどのように貢献しているかを反映することができます。

画像の中には、月ごとのインシデントログとデータ品質次元別のログがあります。ステッカーにはインシデントの簡単な説明が表示されています(画像提供:著者)

フレームワークの定期的な見直し

チームは定期的にインシデントログをレビューし、特定されたギャップを埋めるためにデータ品質フレームワークを更新する必要があります。これにより、アクションと目標が現実を反映し、最新の状態に保たれます。

サービスレベル指標と透明性

サービスレベル目標の達成度を測定することは非常に重要です。各SLOには、そのSLOの達成度を示すサービスレベル指標(SLI)が必要です。たとえば、この例では、直近X日間において本番環境で6時間以上前のデータがない成功率の割合を示すSLIを持つことができます(タイムリネスの次元)。これにより、ユーザーはデータの振る舞いを理解し、その品質に対する信頼を築くことができます。

データ品質次元のサービスレベル指標(画像提供:著者)

透明性は実践する上で重要であり、サービスレベル指標がその透明性を提供する役割を果たします。

データ品質メトリクスの共有

データ品質メトリクス(SLI)を共有するために、私はデータメッシュの実装内でデータプロダクトの概念を採用することが好ましいと思っています。

私たちのデータ品質戦略は以下の特徴を持っています:

  • ビジネスのニーズに基づいたドメイン固有のものです
  • 透明性があり、ユーザーと共有したいと考えています
  • 私たちのデータ品質フレームワークは可視性が高く、簡単に解釈できます

これはデータメッシュがデータプロダクトに与える定義と完全に一致しています。データとその品質メトリクスをデータプロダクトにカプセル化し、透明性を高めるためにデータメッシュのアプローチを使用することを強くお勧めします。

データ品質メトリクスの共有におけるデータプロダクトの利点

データメッシュの中でのデータプロダクトは、ドメイン固有のデータ機能を自己完結型の単位として定義されます。データ、処理ロジック、データ品質チェックをカプセル化し、分散型のデータ所有権と広範なデータエコシステムへのシームレスな統合を促進します。それらは特定のビジネスニーズを満たすために設計されています。それらは簡単に見つけることができ、透明性があります。データ品質フレームワークの重要な構成要素として、データプロダクトは各ドメインの固有の要件に正確に合わせて戦略を整え、ドメイン固有のデータ品質の可視性と透明性を提供します。

データ品質の文脈でのデータプロダクトの主な利点の一つは、独自のサービスレベル指標(SLI)を保持する能力です。データ品質指標をデータプロダクトに直接統合し、ユーザーフレンドリーなカタログを通じて可視化することで、ユーザーはデータの品質を完全に把握した上で検索やアクセスのリクエストを行い、データを探索することができます。この透明性と可視性はユーザーの信頼を高め、採用を促進します。

結論

このステップバイステップガイドを通じて、ビジネスニーズをカバーする測定可能なサービスレベル目標を設定し、データ品質の次元を特定し、アクションを目標に合わせて整えることで、SLOで定義された期待に応える方法を学びました。データプロダクトが提供する透明性と可視性を取り入れることで、データ品質メトリクスを効果的に共有し、信頼を構築し、ユーザーの採用を増やすことができます。完璧さは存在しないことを忘れずに、継続的なモニタリング、インシデントの記録、定期的な見直しを行うことでデータ品質フレームワークを最新の状態に保ちましょう。

以下の手順に従うことで、堅牢なデータ品質フレームワークを作成し、データ品質の共有可能な知識ベースとなるアーティファクトのセットを構築することができます。これらのアーティファクトはステークホルダーやチームメンバーにとっても解釈しやすくなっています。さらに、データ品質フレームワークは、取り組みとニーズの完璧なバランスを保ち、ビジネス要件をカバーするためのデータをチームがすぐにリリースできるようにします。

データエンジニアリングを楽しんでください!

参考文献

https://www.thoughtworks.com/en-es/insights/blog/digital-transformation/how-to-brew-a-perfect-strategy-responsibly-part-one

https://towardsdatascience.com/how-to-create-a-data-quality-framework-6887dea268ae

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more