先駆的なデータオブザーバビリティー:データ、コード、インフラストラクチャ、およびAI
革新的なデータオブザーバビリティー:データ、コード、インフラストラクチャ、AIの最新情報
2019年に「データオブサーバビリティ」カテゴリを立ち上げた時、その用語は私には発音すら困難でした。
しかし、4年後、このカテゴリは現代のデータスタックの中核的な層として確立しました。データオブサーバビリティは、ガートナー、フォレスターなどによって認識されるG2カテゴリであり、世界でも最も先進的なデータ組織を含む数百の企業で広く採用されています。
実際、成長中の企業のCTOは最近私に言いました。「世界が変わる中で、このトレンドは不可避であり、誰もそれを止めることはできません。」
私は今でもいつも正確に発音できませんが、データオブサーバビリティは現代のデータチームにとって必須のツールとなっており、この運動がどれだけ進化し、どこに向かっているかに誇りを感じています。
それでは、データ信頼性の未来にはどのような展望がありますか?進む方向を理解するために、まずはこれまでの進歩を振り返ってみましょう。
始まりの地点
2010年代半ばに、データチームはクラウドに移行し、データストレージや計算技術(Redshift、Snowflake、Databricks、GCPなど)を導入し、分析の需要に応えるようになりました。クラウドのおかげでデータは処理が速くなり、トランスフォームが容易になり、アクセスしやすくなりました。
データがより普及するにつれて、パイプラインはより複雑になり、新しい役割が混乱を管理するために登場しました(データエンジニアの皆さん、こんにちは)。そして、可能な使用例の数も急増しました。
メリットは多くの情報に基づく意思決定、さまざまなデータ使用例、そしてよりスマートなソフトウェアです。
デメリットは、データ品質などの基本的な要素が軽視され、この現代のデータスタックのより魅力的な部分に後れを取ってしまうことです。
以前の経験で、悪いデータの影響を直接目にしました。CFOからの朝5時の連絡、「データが正しく表示されていない」というステークホルダーからのメモ書き、不正確なデータを提供していたため、困惑した顧客。
「データオブサーバビリティ」はこの苦痛から生まれた概念であり、具体的な解決策を提供します。アプリケーションの監視性やサイトの信頼性エンジニアリングに触発されて、データオブサーバビリティはデータの問題がビジネスに影響を及ぼす前に組織に通知し、監視するものです。データオブサーバビリティは、データ信頼性を実現するための自動化されたプロセス駆動型の代替手段を提供し、コスト削減、成長促進、朝5時の火災報知を大幅に減らします。
歴史的に、最も強力なデータオブサーバビリティのアプローチは、以下の3つの主要なステージを組み込んでいます:検出、解決、予防。
- 検出:データオブサーバビリティは、データの異常や他の問題を検出し、ステークホルダーに先立ってデータチームの対応を警告します。
- 解決:同時に、データオブサーバビリティプラットフォームは、フィールドレベルの系譜、自動的な原因分析および影響分析、そのアセットに影響を及ぼす過去のインシデントに関する情報、関連するクエリログおよびdbtモデル、影響を受けるレポートなど、問題の解決に必要なツールをチームに提供します。
- 予防:最後に、データオブサーバビリティは、パイプラインに回路ブレーカを設定し、コード変更がデータに与える影響に関する可視化など、予防的な措置を提供します。これにより、最初から悪いデータがパイプラインに入ることを防ぎます。
データオブサーバビリティは、データの健全性についての情報やメタデータを活用して、データの健康状態を把握する手段です。データの取り込みから利用まで、変更や予想外の上流テーブルの変化などを検出し、ダウンストリームのソースが壊れたり信頼性が低下したりすることを検知できます。
データの検出と解決をデータを超えて拡張する
しかしながら、どの産業でも同様に、データの領域は進化し、インシデントの検出と解決、およびデータの可観測性全般について、チームが考える必要がある方法に影響を与えました。この進化はいくつかの興味深いトレンドによるものです:データ製品の台頭 そして、それによる結果としてのデータチームのエンジニアリング部門への接近または直接の移行。
データチームが組織内で範囲を広げ、データのユースケースが成長するにつれて、データチームは従来よりもビジネスの収益においてより影響力のある存在となりました。現在、ビジネス全体で毎日データを活用して洞察を得たり、デジタルサービスを提供したり、MLモデルをトレーニングしたりしています。実際に、単にデータを製品のように扱うだけではなく、2023年にはデータは製品となっています。
ペプシ、Gusto、MasterClass、Vimeoなどを含む数百の顧客を手がけた結果、データの信頼性を実現するためには、単にデータだけを見るのではなく、より広い視野が必要です。信頼性のないデータは孤立した存在ではありません…それはデータエコシステムのすべての要素に影響を受けます:データ + コード + インフラストラクチャ。
このより広いビジョンは、ソフトウェアエンジニアリングのフレンズが検出と解決に取り組む方法と一致しています。アプリケーションの可観測性はインフラストラクチャから始まりますが、ソフトウェアのダウンタイムを検出および解決するためにそれ以上も分析します。原因分析は、コード、インフラストラクチャ、サービス、ネットワークなどを考慮に入れます。ソフトウェアエンジニアにとって、信頼性は孤立して達成されるものではありません – しばしば相互に影響し合う多くの要素によって頻繁に影響を受けます。
データの場合、シナリオはしばしば同じであり、それをそのように扱う時が来たと言えます。
データの世界から一つの仮説的な例を考えてみましょう。
古くなった結果を表示するダッシュボードがあると想像してください。最初にデータを見ます、この場合は、おそらくGoogleから取り込まれた広告キャンペーンに関する上流テーブルのことでしょう。キャンペーン名が変更され、ハードコードされたデータパイプラインが壊れたのでしょうか?または、クリックイベントテーブルにユーザーUUIDの代わりにnullが表示されているのでしょうか?それではダメな場合、次は何でしょうか?
コードを確認します。おそらくアナリティクスエンジニアがSQLを変更して最新データをフィルタリングするようになったのでしょうか?彼らには良い意図がありましたが、意図しない結果になったかもしれません。dbtリポジトリをチェックしてみます。いや、問題はなさそうです。
最後に、インフラストラクチャを見ます。Airflow UIにすばやく移動します – おそらく小さいインスタンスでAirflowを実行しており、メモリが不足しているため(あの行をメモリにロードするべきではありませんでした!!)、下流のフレッシュネスの問題が発生しました。ユレカ – 見つけました!
経験から学ぶと、これらの3つの要素がデータのダウンタイムに意味を持ちます。ですので、最初にどこを見ても、教養を持った推測を行い、1つずつそれを排除していくという面倒なプロセスになります。ああ、8つの異なるツールを使いこなすためのアクセスと熟練度も必要ということを忘れていましたか?
さて、想像してみてください。自分が見ている症状(古いダッシュボード…)をデータ、コード、インフラストラクチャに適用することができるとしたら、すべての変更と相関関係を迅速に調べることができるとしたら。統計学の博士号や、データウェアハウスのすべての列を把握するために会社で10年の経験が必要だということもなく、すべてが手の届くところにある – データ、コード、およびインフラストラクチャが一体となって壊れたダッシュボードが生じる過程の完全な理解です。時間とリソースを節約し、ステークホルダーの不満を回避し、早朝の目覚まし時計を言い出したくないと思いませんか?
データの可観測性には、データ、コード、およびインフラストラクチャの3つのレイヤーに対する洞察が必要です。画像は著者によるものです。
データの可観測性の潜在能力を本当に実現し、信頼性のあるデータを達成するには、チームがデータの健全性に影響を与えるデータ、コード、およびインフラストラクチャの徹底した統合した全体像を織り交ぜる、3つの階層アプローチが必要です。
そして、我々が気づいたことは、データの信頼性を達成するためには、単にツールをオンにするだけではないということです。それは新しいディシプリンをチームに導入することです – ある種の運用思考です。チームはデータシステムの監視に関するプロセスを導入し、インシデントに対応し、時間をかけて改善していく必要があります。
組織の構造、プロセス、およびテクノロジーは、これらの目標を達成するために進化する必要があります。透明性、協力、責任のために組織全体で簡単に共有できる上流テーブルに基づくデータ製品の信頼性を定義し監視する「ダッシュボード」と、ユースケースとオーナーに基づいてデータとパイプラインをセグメント化し、対象となるトリアージとインシデントの解決を行う「ドメイン」を思い浮かべてください。ダッシュボード Think:は、上流テーブルに基づくデータ製品の信頼性を定義し、監視するためのものであり、透明性、協力、責任のために組織全体で容易に共有できます。また、ドメイン は、ユースケースと所有者に基づいてデータとパイプラインをセグメント化し、対象となるトリアージとインシデントの解決を行います。
信頼性のあるデータとAIの未来
[ここに業界名を挿入]の未来として大型言語モデル(LLM)に賭けることは、このポイントではほぼ陳腐になりつつありますが、データ産業への影響は異なります。
現在の生成型AIのユースケースは、GitHub Co-Pilot、Snowflake Document AI、およびDatabricks LakehouseIQなどのように、ほとんどが生産性のスケーリングに焦点を当てています。生成型AIの将来はまだわかりませんが、データチームがその成功に大いに貢献することは確かです。
LLMがデータの品質に役立つというエキサイティングな機会がありますが、さらに強力なテーゼは、データの品質と信頼性がLLMに役立つことです。実際、私は生産ユースケースでサービスを提供するLLMが、多くの高品質で信頼性のある信頼性のあるデータを持たないと存在しえないと主張します。
ほとんどの生成型AIアプリケーションは、クラウドでホストされ、APIで提供されています。これらをサポートするには、信頼性のあるクラウドベースのデータスタックが必要です。データを信頼性を持って格納、変換、トレーニング、提供できるようにします。
このような意見を響かせる形で、SnowflakeのCEOであるFrank Slootmanは、2023年Q1の収益会議中に「生成型AIはデータによって動作します。モデルがトレーニングを受け、ますます興味深く関連性のあるものになる方法です… LLへ indiscriminately この [LLM] design の鞄に、信頼性と定義と系統の面で人々が理解していないデータを意図なく開放できるわけではありません」と主張しました。
信頼性のないモデルトレーニングの影響をすでに見ています。たとえば、グローバルな信用会社であるEquifaxは、直近の発表で、悪いデータでトレーニングされたMLモデルにより、何百万人もの消費者に対して誤ったクレジットスコアを貸し手に送ってしまったことを明らかにしました。そして、それよりも前に、Unity Technologiesも広告データの品質が低く、ターゲティングアルゴリズムが悪化したことにより、1億1000万ドルの収益損失を報告しました。今後、信頼性を優先させない限り、この問題はさらに深刻化するでしょう。
今後数年間で、企業向けのAIアプリケーションの台頭を目撃しながら、データの可観測性はLLMとその他すべてのAIユースケースをサポートするための重要な能力となります。
Databricksの共同創業者であるMatei Zaharia、Patrick Wendell、Reynold Xin、およびAli Ghodsiは「企業アプリケーションはホールシネーションや間違った応答に対して余り許容量がありません… 機械学習ライフサイクルのすべての段階で、データとモデルは共同で管理される必要があります。これは特に生成型モデルにとって重要であり、品質と安全性は良いトレーニングデータに非常に依存しています」と提案しています。
私も完全に同意します。より良い、より影響力のあるAIへの第一歩は、良質で信頼性のあるデータ、そしてたくさんのデータです。
元の記事はこちらで最初に掲載されました。許可を得て転載されました。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles