「データパイプラインについての考え方が変わってきています」
美容とファッションの世界で重要な変化が生じています
目標は、データを確実かつ効率的に本番環境にリリースすることです
データパイプラインは、有向非巡回グラフ(DAG)として構成された一連のタスクです。これらは従来、Apache AirflowやPrefectなどのオープンソースのワークフローオーケストレーションパッケージ上で実行され、データエンジニアやプラットフォームチームによって管理されるインフラストラクチャが必要でした。これらのデータパイプラインは通常、スケジュールに基づいて実行され、データエンジニアがデータウェアハウスやデータレイクなどの場所でデータを更新することができます。
しかし、これは現在変化しています。データエンジニアリング業界では、意識が「ビジネスにデータを提供するためのあらゆるコストを払う」というマインドセットから、「信頼性と効率性」/「ソフトウェアエンジニアリング」というマインドセットに変わりつつあります。
継続的なデータ統合と提供
以前、私はデータチームがデータを出荷する一方で、ソフトウェアチームはコードを出荷すると書きました。
これは「継続的なデータ統合と提供」と呼ばれるプロセスであり、データを確実かつ効率的に本番環境にリリースするプロセスです。以下に、ソフトウェアエンジニアリングで使用される「CI / CD」との定義に微妙な違いがあります。
ソフトウェアエンジニアリングでは、コードがステージング環境で動作するために「ほぼ完全なレプリカ」を持つことの重要性から、継続的な提供は容易ではありません。
一方、データエンジニアリングでは、これは必要ではありません。データを出荷するものはデータであるため、データが一定の条件を満たしていれば、それは十分な品質であるとして「リリース」されることになります。
データを本番環境にリリースするプロセス(継続的な提供のアナロジー)は非常にシンプルであり、データセットをコピーまたはクローンすることに関連しています。
さらに、データエンジニアリングの要となるのは、新しいデータが到着した時にそれに反応すること、または新しいデータが存在するかどうかをチェックすることです。ソフトウェアエンジニアリングにはこれに対する類似点はありません。ソフトウェアアプリケーションには…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles
- 「Google Bard vs. ChatGPT ビジネスにおいてどちらのツールが優れているのか?」
- 予測保守を理解する-データの取得と信号の清音化
- 機能データの異常検出のための密度カーネル深度’ (Kinō dēta no ijō kenshutsu no tame no mitsudo kāneru shinshitsu)
- ストリーミングフレームワークの紹介
- 「ビッグデータパイプラインのデータ品質を簡単に監視する方法」
- 機械学習モデルにおけるデータ過剰適合を避ける方法
- 「VoAGIニュース、11月8日:Python、SQL、Scikit-learn、PyTorch&Google Cloudをマスターするための5つの簡単なステップ•データ可視化のためのSQL」