「データパイプラインについての考え方が変わってきています」

美容とファッションの世界で重要な変化が生じています

写真:Ali KazalさんによるUnsplashからの写真

目標は、データを確実かつ効率的に本番環境にリリースすることです

データパイプラインは、有向非巡回グラフ(DAG)として構成された一連のタスクです。これらは従来、Apache AirflowPrefectなどのオープンソースのワークフローオーケストレーションパッケージ上で実行され、データエンジニアやプラットフォームチームによって管理されるインフラストラクチャが必要でした。これらのデータパイプラインは通常、スケジュールに基づいて実行され、データエンジニアがデータウェアハウスやデータレイクなどの場所でデータを更新することができます。

しかし、これは現在変化しています。データエンジニアリング業界では、意識が「ビジネスにデータを提供するためのあらゆるコストを払う」というマインドセットから、「信頼性と効率性」/「ソフトウェアエンジニアリング」というマインドセットに変わりつつあります。

継続的なデータ統合と提供

以前、私はデータチームがデータを出荷する一方で、ソフトウェアチームはコードを出荷すると書きました。

これは「継続的なデータ統合と提供」と呼ばれるプロセスであり、データを確実かつ効率的に本番環境にリリースするプロセスです。以下に、ソフトウェアエンジニアリングで使用される「CI / CD」との定義に微妙な違いがあります。

画像:筆者のイメージ

ソフトウェアエンジニアリングでは、コードがステージング環境で動作するために「ほぼ完全なレプリカ」を持つことの重要性から、継続的な提供は容易ではありません。

一方、データエンジニアリングでは、これは必要ではありません。データを出荷するものはデータであるため、データが一定の条件を満たしていれば、それは十分な品質であるとして「リリース」されることになります。

データを本番環境にリリースするプロセス(継続的な提供のアナロジー)は非常にシンプルであり、データセットをコピーまたはクローンすることに関連しています。

さらに、データエンジニアリングの要となるのは、新しいデータが到着した時にそれに反応すること、または新しいデータが存在するかどうかをチェックすることです。ソフトウェアエンジニアリングにはこれに対する類似点はありません。ソフトウェアアプリケーションには…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more