「ゼロ-ETL、ChatGPT、およびデータエンジニアリングの未来」

「ゼロ-ETL、ChatGPT、そしてデータエンジニアリングの未来」の美容とファッション専門家による解説

変化が好きではない場合、データエンジニアリングは向いていません。この分野ではほとんど何もが再発明から逃れていません。

最も顕著な最近の例は、SnowflakeとDatabricksによるデータベースの概念の破壊であり、モダンデータスタック時代の到来をもたらしました。

この動きの一環として、Fivetranとdbtは、ETLからELTへのデータパイプラインを根本的に変えました。 Hightouchは、SaaSが世界を席巻するのを阻止し、重心をデータウェアハウスに移す試みをしました。 Monte Carloは参戦し、「エンジニアが手動でユニットテストのコードを記述することが最良のデータ品質の確保方法ではないかもしれない」と言いました。

今日、データエンジニアはハードコーディングされたパイプラインとオンプレミスサーバーを踏みつけ、モダンデータスタックの啓示の坂を上っています。必然的な統合と失望の谷が安全な距離に地平線に現れています。

そして、もうすでに新しいアイデアが出現して、破壊者を破壊しようとしているように思われるのはほとんど不公平です:

  • ゼロETLはデータ取り込みを目指しています
  • AIと大規模言語モデルは変換を変える可能性があります
  • データプロダクトコンテナは、データの中核的な構築ブロックとしての役割を狙っています

すべてを再建する必要があるのでしょうか(再び)?Hadoop時代の体はまだ寒くありません。

答えは、もちろん私たちはデータシステムを再構築しなければならないでしょう。おそらく私たちのキャリアの間に何度も。本当の問いは、なぜ、いつ、そしてどのように(その順序です)です。

私はすべての答えや未来を予知する力はありませんが、この記事では、最も注目すべき近い将来のアイデアのいくつかを詳しく調査し、データエンジニアリングへの潜在的な影響を見ていきます。

実用性とトレードオフ

写真 by Tingey Injury Law Firm on Unsplash

モダンデータスタックが前の製品よりもすべてを優れて行ったわけではありません。リアルなトレードオフがあります。データは大きく速くなりましたが、乱雑で統制されていません。コスト効率についてはまだ不明です。

モダンデータスタックが最も優れているのは、以前は不可能だったか、非常に困難だった方法でデータのユースケースをサポートし、価値を引き出すからです。機械学習はブラックワードから収益発生装置に移行しました。分析と実験はより深く行われ、重要な判断をサポートします。

以下の各トレンドにも同じことが当てはまります。長所と短所がありますが、採用を推進するのは、データを活用する新しい方法を開拓する方法、またはまだ見つけていないダークホースのアイデアです。それぞれを詳しく見ていきましょう。

ゼロETL

何を意味するのか:誤った名称ですが、データパイプラインはまだ存在します。

今日、データはしばしばサービスによって生成され、トランザクションデータベースに書き込まれます。自動パイプラインが展開され、生データが分析用データウェアハウスに移動するだけでなく、途中で少しだけ変更も加えます。

たとえば、APIはデータをJSON形式でエクスポートし、取り込みパイプラインはデータを輸送するだけでなく、データがデータウェアハウスに読み込まれることができるテーブル形式に軽微な変換を適用する必要があります。取り込みフェーズ内で行われる他の一般的な軽微な変換には、データの書式設定や重複の削除があります。

Pythonでハードコーディングされたパイプラインでより重厚な変換を行うこともできますが、データチームのほとんどは迅速さと可視性/品質の理由からそうしないことを選んでいます。

Zero-ETLは、トランザクションデータベースがデータのクリーニングと正規化を行い、それをデータウェアハウスに自動的にロードすることで、このデータの取り込みプロセスを変更します。重要なことは、データは比較的生の状態のままであるということです。

現時点では、この緊密な統合は、ほとんどのゼロ-ETLアーキテクチャが、トランザクションデータベースとデータウェアハウスの両方が同じクラウドプロバイダーから提供される必要があるために可能です。

利点:レイテンシーの削減。重複したデータの保存がない。障害の原因が1つ少ない。

欠点:データの取り込みフェーズ中にデータをどのように処理するかをカスタマイズする能力が低い。特定のベンダーにロックインされる可能性がある。

推進者:AWSはこの言葉の背後にいる推進者です(Aurora to Redshift)。しかし、GCP(BigTable to BigQuery)やSnowflake(Unistore)も同様の機能を提供しています。Snowflake(Secure Data Sharing)やDatabricks(Delta Sharing)は、実際にはETLを含まないデータの共有を追求しています。このプロセスは、データが格納されている場所に拡張アクセスを提供します。

実用性と価値の解放ポテンシャル:一方で、大手テクノロジーギャイアンツがその背後に立ち、準備ができた機能を持っているため、ゼロ-ETLは時間の問題のように見えます。他方で、私はデータチームが、予期せぬスキーマの変更が全体の運用をクラッシュさせることを防ぐために、操作データベースと分析データベースの結合をより強くではなく、より弱くする傾向があることを観察しています。

このイノヴェーションにより、ソフトウェアエンジニアが彼らのサービスが生成するデータに対していかにスキーマに関心を持つ必要があるのかがさらに低下する可能性があります。コードがコミットされた後、データがデータウェアハウスに送信されるのですから、彼らはなぜスキーマについて気にかける必要があるのでしょうか?

現在、データストリーミングとマイクロバッチのアプローチは、現時点で「リアルタイム」データのほとんどの要求を満たすために役立っているようですので、このタイプのイノヴェーションの主要なビジネスドライバーは、インフラの簡素化であると考えています。そして、それは軽んじられるものではありませんが、長期的にはセキュリティレビューの障害を取り除くためのデータのコピーなしの共有の可能性により、より広く採用される可能性があります(明確に言っておきますが、これはどちらかの選択ではありません)。

One Big Tableと大規模言語モデル

これは何ですか:現在、ビジネス関係者は、要件、メトリクス、ロジックをデータの専門家に伝え、それらをすべてSQLクエリやダッシュボードに変換する必要があります。すべてのデータが既にデータウェアハウスに存在しているにもかかわらず、このプロセスは時間がかかります。そして、データチームのお気に入りの活動リストには、アドホックなデータリクエストは、根管治療とドキュメンテーションの間のどこかに位置しています。

GPT-4などの大規模言語モデルのパワーを活用して、データを自然言語で「クエリ」できる洗練されたインターフェースで、このプロセスを自動化することを目指すスタートアップがいくつも存在します。

少なくとも、私たちの新しいロボット支配者がバイナリを新しい公用語にするまでです。

これにより、セルフサービス型の分析プロセスが劇的に単純化され、データの民主化がさらに進むことが期待されますが、より高度な分析のためのデータパイプラインの複雑さを考えると、基本的な「メトリックの取得」を超えた解決は困難になるでしょう。

しかし、すべての生データを1つの大きなテーブルに詰め込むことで、その複雑さが単純化された場合はどうでしょうか?

これは、データチームの一部がすでに採用しているワンビッグテーブル(OBT)戦略によって提案されたアイデアですが、その賛成派と反対派が存在します。

大規模な言語モデルを活用することで、1つの大きなテーブルを使用する際の最大の課題である発見性、パターン認識、そして完全な組織の欠如という困難を克服するように思われます。物語には目次とよくマークされた章があると、人間にとっては役に立ちますが、AIには関係ありません。

長所: おそらく、最終的にはセルフサービスのデータ分析の約束を果たすことができます。洞察までの速度。データチームがデータ価値の解放と構築により多くの時間を費やし、アドホックなクエリに対応する時間を減らすことができます。

短所: それはあまりにも自由すぎるでしょうか?データの専門家は、(タイムゾーン!「アカウント」とは何ですか?)というデータの痛みを程度で知っていますが、ほとんどのビジネスステークホルダーは知りません。直接のデータ民主主義ではなく表現的なデータ民主主義の恩恵を受けることはできるのでしょうか?

主導者: Delphi、GetDot.AIなどの超早期のスタートアップ。Narratorなどのスタートアップもあります。AmazonのQuickSight、TableauのAsk Data、ThoughtSpotなど、これといったバージョンを提供しているより確立されたプレーヤーもいます。

実用性と価値の解放ポテンシャル:爽快なことに、これはユースケースを探しているテクノロジーではありません。価値と効率が明らかですが、技術的な課題も存在します。このビジョンはまだ構築中であり、さらなる発展に時間がかかります。採用に最も障害となるのは、おそらくより確立された組織にとってリスクが高すぎるであろうインフラストラクチャの混乱です。

データプロダクトコンテナ

それは何ですか: データテーブルはデータプロダクトが構築されるための基本要素です。実際、多くのデータリーダーは製品テーブルを彼らのデータプロダクトとして考えています。ただし、データテーブルが製品のように扱われるためには、アクセス管理、発見、データ信頼性などの多くの機能を追加する必要があります。

コンテナ化はソフトウェアエンジニアリングのマイクロサービス運動に欠かせない要素です。それは移植性、インフラストラクチャの抽象化を向上させ、組織がマイクロサービスを拡張することを可能にします。データプロダクトコンテナのコンセプトは、データテーブルの同様のコンテナ化を想像しています。

データプロダクトコンテナは、データの意味的な定義、データの系譜、および品質メトリクスなど、基盤となるデータ単位に関連する情報をより良く提示することができれば、データをより信頼性の高いものにするための有効なメカニズムとなる可能性があります。

長所: データプロダクトコンテナは、4つのデータメッシュの原則(連邦統治、データセルフサービス、データを製品として扱う、ドメイン重視のインフラストラクチャ)をより良くパッケージ化し、実行する方法として見えます。

短所: このコンセプトによって組織はデータプロダクトの拡大を容易にするのか、それとも困難にするのか?この未来志向のデータトレンドについて、データパイプラインの副産物(コード、データ、メタデータ)は、データチームにとって保存する価値があるのかという別の根本的な質問もあります。

主導者: データメッシュの創始者であるZhamak Dehgahniによって設立されたスタートアップであるNextdata。また、Nexlaもこの領域で活動しています。

実用性と価値の解放ポテンシャル:Nextdataは最近ステルスモードから出てきたばかりで、データプロダクトコンテナもまだ進化中ですが、多くのデータチームはデータメッシュの導入から実績を見ています。データテーブルの未来は、これらのコンテナの正確な形状と実行に依存するでしょう。

データライフサイクルの終わりなき再構築

写真 by zero take on Unsplash

データの未来をのぞくためには、データの過去と現在に目を向ける必要があります。過去、現在、未来―データインフラストラクチャは常に混乱と再生の状態にあるのです(ただし、もしかするともう少しカオスが必要かもしれません)。

データウェアハウスの意味は、1990年代にBill Inmonによって導入された用語から大きく変わっています。ETLパイプラインは今やELTパイプラインになりました。データレイクも2年前のように非具体的ではありません。

モダンデータスタックによって導入されたこれらのイノベーションにもかかわらず、データエンジニアは依然としてデータの移動方法やデータの利用者がアクセスする方法を決定する中心的な技術的役割を果たしています。ただし、いくつかの変更は他のものよりも大きくて怖いものです。

「ゼロ-ETL」という言葉は、(不正確に)パイプラインの終焉を示唆しているため、パイプラインがなければデータエンジニアは必要ないのでしょうか?

ChatGPTがコードを生成する能力に対する騒ぎの中で、このプロセスは依然として技術的データエンジニアの手によって完全に制御されており、レビューやデバッグが必要です。大規模な言語モデルの恐ろしい側面は、それがどのようにデータパイプラインやデータの利用者との関係(およびデータが彼らに提供される方法)を根本的に変える可能性があることです。

しかしこの未来が訪れる場合でも、それはデータエンジニアに非常に依存しています。

時の推移とともに変わる基盤の下で、データの一般的なライフサイクルが確立されています。データは発生し、形成され、使用され、そしてアーカイブされます(ここでは自分自身の死について考えることは避けたほうが良いでしょう)。

基盤は変わり続け、自動化によって時間と注目が右や左にシフトするかもしれませんが、予測可能な将来において人間のデータエンジニアは依然としてデータから価値を抽出する重要な役割を果たします

それは、将来の技術やイノベーションが今日の複雑なデータインフラストラクチャをシンプルにすることができないからではなく、データへの需要と使用法が洗練され、拡大し続けるからです。

ビッグデータは常に前後に振れる振り子のようなものです。容量で大きな飛躍をし、然る後にはその限界に達する方法をすぐに見つけ出し、次の飛躍が必要になります。このサイクルに肩入れできることは心地よいものです。

記事は元々こちらで投稿されました。許可を得て再投稿しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more