In English Building a Batch Data Pipeline with Athena and MySQL

「AthenaとMySQLでバッチデータパイプラインを構築する英語」

初心者向けのエンドツーエンドチュートリアル

Redd Fによる写真、引用元:Unsplash

このストーリーでは、バッチデータ処理という、データ変換タスクを実行するための最も人気のある方法の1つについて話します。データパイプラインの設計パターンは、スケジューリングが必要なETLジョブに非常に効率的なデータの塊でデータを処理する必要がある場合に非常に便利です。MySQLとAthenaを使用して、データ変換パイプラインを構築することで、それをどのように実現できるかをデモンストレーションします。クラウド内で展開するためのインフラストラクチャのコード化を使用します。

あなたがデータエンジニアとして新しく会社に入社したと想像してください。データスタックは最新で、イベント駆動型でコスト効果があり、柔軟で成長するデータリソースに簡単に対応できるものです。外部データソースとデータパイプラインは、データエンジニアリングチームによって、CI/CD GitHub統合を使用した柔軟な環境設定で管理されます。

データエンジニアとして、下記のように企業の収益ストリームの地理を表示するビジネスインテリジェンスダッシュボードを作成する必要があります。生の支払いデータはサーバーデータベース(MySQL)に格納されています。毎日データベースからデータを抽出し、データファイルをAWS S3に保存し、Athenaを使用して処理するバッチパイプラインを構築したいと考えています。

収益ダッシュボード、著者の作品

バッチデータパイプライン

データパイプラインは、データ処理の一連の手順と考えることができます。これらのステージ間には論理的なデータフロー接続があるため、各ステージは後続のステージの入力となる出力を生成します。

データの処理がポイントAとポイントBの間で行われる場合、データパイプラインが存在します。

データパイプラインは、概念的および論理的な性質により異なる場合があります。それについて以前こちらで書きました [1]:

データパイプラインの設計パターン

適切なアーキテクチャの選択と例

towardsdatascience.com

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more