「ETLにおける進化:変換の省略がデータ管理を強化する方法」
「進化するETL:データ管理の強化における変換省略の重要性」
ETL(抽出-转换-加载)是比较受争议的数据处理技术之一,它在几十年来占据企业运营的主导地位。ETL在20世纪70年代开发,当时大规模数据仓库和存储库正盛行。企业数据团队集中了数据,叠加了报表系统和数据科学模型,并为业务智能(BI)工具提供了自助访问。然而,在云服务、数据模型和数字化流程的时代,ETL已经显露出它的年龄。
在谷歌上,搜索“ETL是否仍然相关/需求量大/过时/已经消亡?”会返回一大堆结果。原因是企业的数据团队在为员工角色和业务功能广泛使用的数据准备方面感到吃力。ETL无法轻松扩展以处理存储在云中的大量历史数据。也无法提供高执行速度的实时数据,以满足管理层快速决策的需求。此外,构建自定义的API以提供应用程序所需的数据会带来重大的管理复杂性。现代企业常常需要500至1,000个管道,以转换数据并为用户提供自助访问BI工具。然而,这些API处于不断演进的状态,因为当它们拉取数据发生变化时,需要重新编程。很明显,这个过程对于许多现代数据需求来说太脆弱了,比如边缘应用场景。
此外,应用程序的能力也发生了变化。源系统提供业务逻辑和工具以确保数据质量,而消费应用程序则实现数据转换并提供强大的语义层。所以,团队不太愿意构建点对点接口来大规模移动、转换和加载数据到数据仓库。
两种创新技术指导了数据民主化并降低转换负担的路径。零ETL使数据可用,而无需移动它,而反向ETL会在数据可用后将数据推送给需要它的应用程序。
零ETL减少数据移动和转换需求
零ETL优化了较小数据集的移动。使用数据复制将数据以当前状态移动到云中,以便进行数据查询或试验。
但是,如果团队根本不想移动数据呢?
数据虚拟化将服务器与终端用户抽象。用户从单一来源查询数据时,将查询结果返回给他们。通过查询联邦,用户可以查询多个数据源。该工具将结果合并并向用户呈现集成的数据结果。
这些技术被称为零ETL,因为不需要构建管道或转换数据。用户可以根据需要处理数据质量和聚合需求。
零ETL非常适合对近期数据进行即席分析,因为在历史数据上执行大查询可能会影响操作性能并增加数据存储成本。例如,许多零售和消费品企业高管使用零ETL来查询每日交易数据,以在需求高峰期(如假期)集中精力制定市场营销和销售策略。
Google Cortex提供加速器,使零ETL在SAP企业资源规划系统数据上实现。其他公司,如全球最大的零售商和全球食品饮料公司,也采用了零ETL流程。
零ETL的优势包括:
- 提供快速访问速度: 使用零ETL流程为自助查询提供数据,相比传统的ETL过程节省40-50%的时间,因为无需构建管道。
- 减少数据存储需求: 数据虚拟化或查询联邦不会移动数据。用户仅存储查询结果,降低存储需求。
- 节约成本: 使用零ETL流程的团队与传统ETL相比在数据准备和存储成本上可以节省30-40%。
- 提高数据性能: 由于用户仅查询所需数据,结果可提供25%的更快速交付。
要开始使用零ETL,团队应该评估哪些用例最适合这一技术,并确定需要执行该技术所需的数据元素。他们还应该将零ETL工具配置到所需的数据源。然后团队提取数据,创建数据资产,并向下游用户公开。
リバースETLを使用してデータをアプリケーションにオンデマンドで提供する
リバースETLの技術は、ダウンストリームのアプリケーションに対するデータフローを簡素化します。データを引き出すためのREST APIやエンドポイントの使用やスクリプトの作成を置き換え、チームはリバースETLツールを活用してデータをビジネスプロセスにタイムリーかつ完全にプッシュします。
リバースETLの使用は、以下の利点をもたらします:
- 時間と労力の削減:主要なユースケースにリバースETLを使用することで、主要なユースケースへのデータアクセスにかかる時間と労力を20〜25%削減できます。主要なクルーズラインは、デジタルマーケティングイニシアチブにリバースETLを活用しています。
- データの可用性の向上:チームは、必要なデータを主要なイニシアチブで確実に利用できる確信を持つことができます。対象データの90〜95%がタイムリーに配信されます。
- コストの削減:リバースETLプロセスは、専門的なプログラミングスキルが必要で、管理の複雑さを増すAPIの必要性を低減します。その結果、チームはデータコストを20〜25%削減することができます。
リバースETLを始めるために、データチームはオンデマンドのデータを必要とするユースケースを評価する必要があります。次に、配信するデータの頻度とボリュームを決定し、これらのデータボリュームを処理するための適切なツールを選択します。そして、データウェアハウスのデータアセットを目的の消費システムへと向けます。チームは効率を測定し、プロセスをスケールするために1つのデータロードでプロトタイプを行うべきです。
データの成功には、様々な準備技術を使用する
ゼロETLとリバースETLツールは、データをユーザーやアプリケーションに提供するための新しいオプションをチームに提供します。ユースケースの要件、データボリューム、データの配信タイムフレーム、コストドライバなどの要素を分析し、従来のETL、ゼロETL、またはリバースETLといったデータを配信するための最適なオプションを選択できます。
パートナーは、機能的および非機能的な要件を満たすための最良の技術とツールに関する洞察を提供し、重み付けスコアカードを提供し、勝利したツールを使った価値の証明(POV)を実施し、さらなるユースケースに対してツールを運用化するためのサポートを提供します。
ゼロETLとリバースETLを活用することで、データチームは、必要なデータを必要な場所とタイミングでユーザーやアプリケーションに提供して、コストとパフォーマンスを向上させ、同時に変換の頭痛を回避します。
[アルナブ・セン](https://www.linkedin.com/in/arnab-sen-60b92624/)は、経験豊富なプロフェッショナルであり、テクノロジーや意思決定科学の分野で16年以上のキャリアを持っています。彼は現在、優れたデータ分析企業であるTredenceのVP-Data Engineeringとして勤務しており、AI-ML/Cloud/Big-dataの戦略設計をサポートしています。データの収益化における彼の専門知識により、アルナブはB2BおよびB2Cのさまざまな業界のクライアントに対してビジネストランスフォーメーションを推進するためにデータの潜在能力を発掘しています。アルナブのチームビルディングへの情熱と人々、プロセス、スキルセットのスケーリング能力は、テレコム、小売業、BFSIを含むさまざまな垂直分野で数百万ドルのポートフォリオを成功裏に管理するのに役立っています。彼は以前、ム・シグマとIGateでのポジションにおいて、革新的なソリューションの開発によってクライアントの問題解決に重要な役割を果たしました。アルナブの卓越したリーダーシップスキルと深いドメイン知識により、彼はフォーブステックカウンシルのメンバーに選ばれました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles