バックフィリングの熟練:データエンジニアリングの専門知識の向上

「バックフィリングの達人:データエンジニアリングの専門知識の高め方」

データエンジニアリング

データエンジニアがバックフィリングの迷宮を進むためのガイド

Towfiqu barbhuiyaによる写真(写真:Unsplash)

バックフィリングとは何ですか?

新しいデータパイプラインを始め、以前に解析したことのないソースからデータを取得してみてください(たとえばAPIから情報を取得したり、既存のハイブテーブルから取得したりする)。今、過去にこのデータを収集したかのように見せるための使命があります。これがデータエンジニアリングでいうデータバックフィリングの一例です。

ただし、新しいデータパイプラインやテーブルを作成するだけではありません。データを長い間収集しているテーブルがあり、突然データを変更する必要があったり(たとえば新しいメトリックの定義によるもの)、新しいデータソースから追加のデータを投入する必要が生じたりするかもしれません。または、データに不完全な箇所がある場合にそれを修正したいと考えるかもしれません。これらのすべての状況がデータバックフィリングの例です。共通するポイントは、「過去」に戻り、テーブルに一部の歴史的データを「補充」することです。

以下の図(図1)は、シンプルなバックフィリングシナリオを示しています。この場合、1日ごとのジョブが2つの上流ソース(プラットフォームAとプラットフォームBのそれぞれ)からデータを取得します。データセットは、最初のパーティションが「ds」であり、次のパーティション(またはサブパーティション)がプラットフォームを表しています。残念ながら、2023年10月3日から2023年10月5日までの期間のデータが一部の問題により欠落しています。このギャップを解消するために、バックフィリング操作が開始されました(バックフィリングジョブは2023年10月8日に開始されました)。

図1)シンプルなバックフィリングシナリオ

バックフィリングとリステイティング

さらに進む前に、データエンジニアリングの領域では通常、2つのシナリオに遭遇することがあります。テーブルの「バックフィリング」と「リステイティング」です。これらのプロセスはいくつかの類似点を共有していますが、いくつかの微妙な違いがあります。バックフィリングは、データセット内の欠落または不完全なデータを補完することに関する実践です。その応用は、通常、過去のデータの更新やギャップの修正に向けられます。逆に、テーブルのリステイティングは、重大な影響を与えることがあります…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more