ETL vs ELT vs ストリーミングETL
ETL vs ELT vs Streaming ETL
データ処理のバッチとリアルタイムの設計パラダイムを探索する
抽出、変換、ロード(ETL)および抽出、ロード、変換(ELT)は、データ処理の文脈でのデータの取り込みと変換の設計パラダイムを表すために使用される2つの基本的な概念です。これらの用語はしばしば交換可能に使用されますが、わずかに異なる概念を指し、異なるユースケースに適用され、異なる設計を要求します。
この記事では、ETLとELTの違いと類似点を探求し、クラウドコンピューティングとデータエンジニアリングの風景がデータ処理の設計パターンにどのように影響を与えたかについて説明します。さらに、現代のデータチームに提供する主な利点と欠点について説明します。最後に、より伝統的なバッチアプローチのさまざまな欠点を解決することを目指した新興のデータ処理パターンであるストリーミングETLについても議論します。
興味のある3つのステップ
外部ソースからのデータの取り込みと永続化は、3つの異なるステップを含みます。
抽出「抽出」ステップでは、ソースシステムからデータを取得するために必要なすべてのプロセスが行われます。このようなソースには、アプリケーションプログラミングインターフェース(API)、データベースシステム、ファイル、およびインターネットオブシングス(IoT)デバイスが含まれます。データは、構造化、半構造化、または非構造化のいずれの形式でも存在することができます。このステップで抽出されたデータは通常「生データ」と呼ばれます。
- 高度なチュートリアル:Matplotlibを絶対的なボスのようにマスターする方法
- 「離散時間マルコフ連鎖 – キャッシュバックキャンペーンにおける勝利する顧客の旅路の特定」
- 「不正行為の恐れにもかかわらず、学校はChatGPTの禁止を撤回する」
変換「変換」ステップでは、パイプラインは生データの上に変換を適用して特定の目標を達成します。この目標は通常、ビジネスまたは技術的な要件に関連しています。一般的に適用される変換には、データの変更(たとえばUnited States
をUS
にマッピングする)、レコードまたは属性の選択、他のデータソースへの結合、さらにはデータの検証などがあります。
ロード「ロード」ステップでは、データ(生データまたは変換されたデータ)が宛先システムにロードされます。通常、宛先はOLAPシステム(つまり、データウェアハウスまたは…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles