Redshift ServerlessとKinesisを使用したストリーミングデータパイプラインの構築
Redshift ServerlessとKinesisを活用したストリーミングデータパイプラインの構築方法
初心者向けのエンドツーエンドチュートリアル
この記事では、最も人気のあるデータパイプラインのデザインパターンの一つであるイベントストリーミングについて話します。他の利点の中には、高速なデータ分析が可能であり、リアルタイムで結果を更新するレポートダッシュボードを作成することができます。AWS KinesisとRedshiftを使用してストリーミングデータパイプラインを構築し、インフラストラクチャとしてコードを使用してわずか数クリックで展開する方法を実証します。データプラットフォームのアーキテクチャを記述し、展開を簡素化するためにAWS CloudFormationを使用します。
データエンジニアとして、サーバーイベントストリームをデータウェアハウスソリューション(Redshift)に接続し、データを変換して分析ダッシュボードを作成するデータパイプラインを作成するというタスクが与えられたと想像してください。
データパイプラインとは何ですか?
データ処理ステップのシーケンスです。これらのステージ間の論理的なデータフローコネクションにより、各ステージは次のステージのための入力となる出力を生成します。
前の記事でもこれについて書きました:
データパイプラインのデザインパターン
適切なアーキテクチャの選択と例
towardsdatascience.com
たとえば、イベントデータはバックエンドでソースが作成し、Kinesis FirehoseやKafkaストリームで構築されたイベントストリームで作成することができます。それから、さまざまなコンシューマーやデスティネーションにフィードすることができます。ストリーミングは、ストリーミングデータ処理の能力のため、エンタープライズデータにとって「必須」のソリューションです。リアルタイムデータ分析が可能になります。
ユースケースのシナリオでは、AWS RedshiftにELTストリーミングデータパイプラインを設定できます。ストリーミングデータをデータウェアハウスのテーブルに直接アップロードすることができるAWS Firehoseストリームがこのようなシームレスな統合を提供できます。その後、AWS QuicksightをBIツールとして使用して、データを変換してレポートを作成できます。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles