Redshift ServerlessとKinesisを使用したストリーミングデータパイプラインの構築

Redshift ServerlessとKinesisを活用したストリーミングデータパイプラインの構築方法

初心者向けのエンドツーエンドチュートリアル

Sebastian Pandelacheによる写真(Unsplash)

この記事では、最も人気のあるデータパイプラインのデザインパターンの一つであるイベントストリーミングについて話します。他の利点の中には、高速なデータ分析が可能であり、リアルタイムで結果を更新するレポートダッシュボードを作成することができます。AWS KinesisとRedshiftを使用してストリーミングデータパイプラインを構築し、インフラストラクチャとしてコードを使用してわずか数クリックで展開する方法を実証します。データプラットフォームのアーキテクチャを記述し、展開を簡素化するためにAWS CloudFormationを使用します。

データエンジニアとして、サーバーイベントストリームをデータウェアハウスソリューション(Redshift)に接続し、データを変換して分析ダッシュボードを作成するデータパイプラインを作成するというタスクが与えられたと想像してください。

パイプラインインフラストラクチャ。著者による画像。

データパイプラインとは何ですか?

データ処理ステップのシーケンスです。これらのステージ間の論理的なデータフローコネクションにより、各ステージは次のステージのための入力となる出力を生成します。

前の記事でもこれについて書きました:

データパイプラインのデザインパターン

適切なアーキテクチャの選択と例

towardsdatascience.com

たとえば、イベントデータはバックエンドでソースが作成し、Kinesis FirehoseやKafkaストリームで構築されたイベントストリームで作成することができます。それから、さまざまなコンシューマーやデスティネーションにフィードすることができます。ストリーミングは、ストリーミングデータ処理の能力のため、エンタープライズデータにとって「必須」のソリューションです。リアルタイムデータ分析が可能になります。

ユースケースのシナリオでは、AWS RedshiftにELTストリーミングデータパイプラインを設定できます。ストリーミングデータをデータウェアハウスのテーブルに直接アップロードすることができるAWS Firehoseストリームがこのようなシームレスな統合を提供できます。その後、AWS QuicksightをBIツールとして使用して、データを変換してレポートを作成できます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more