データの観察可能性:AI時代の信頼性
データの観察可能性:AI時代の信頼性の拡大
4年前にデータの可観測性の概念を紹介したとき、それはモダンなデータスタックのおかげで、新しい価値と新しい問題を解決した組織と共鳴しました。
そして、4年後の今、私たちは生成AIによって引き起こされる巨大な潜在力と困難に組織が取り組んでいるのを目にしています。
今日の答えは、4年前と同じです。データシステムへのフルコンテキストと可視性によって、データ製品の信頼性を向上させるのです。ただし、AIの時代において、システムとプロセスは進化しており、データの可観測性もそれに合わせて進化しなければなりません。
AIもまた別のデータ製品であり、データの可観測性はあなたのすべてのデータ製品を監視する生きたシステムであると考えると、最も良い方法かもしれません。ブラックボックスであることへの信頼性と可視性のニーズは、アナリティクスや機械学習における信頼性構築と同じくらい重要です。
- 「AIに関するアレン研究所の研究者らが、大規模なデータセット上での2段階のトレーニングプロセスによって開発された、新しい科学文書の埋め込みモデルであるSPECTER2を開発しました」
- 「PyTorchでのSoft Nearest Neighbor Lossの実装方法」
- 「ダイナミックな時代のソフトウェアリーダーシップの活路」
特にGenAIの場合、データの可観測性は解決、パイプラインの効率、ストリーミング/ベクトルインフラストラクチャを優先する必要があります。それを詳しく見てみましょう。
異常を超えて
ソフトウェアエンジニアは、New RelicやDatadogのような観測性ソリューションのおかげで、アプリケーションのダウンタイムを解決する方法を長い間手に入れてきました。
一方で、データチームは最近、データのダウンタイムが前年比でほぼ倍増し、1時間あたりのコストが高くなっていることを報告しました。
データ製品(分析、機械学習、AIアプリケーション)は、重要なビジネスオペレーションに完全に組み込まれるために、アプリケーションと同じくらい信頼性がなければなりません。どうしたら良いのでしょうか?
まずは、データのダウンタイム調査について詳しく調べてみますと、問題が浮かび上がってきます。インシデントの発見後の解決までの平均時間が9時間から15時間に増加したのです。
私たちの経験では、ほとんどのデータチームは(データテストの一般的な慣行に影響を受けているかもしれませんが)検出に関する議論を始めます。早期の検出は非常に重要ですが、インシデントのトライアージと解決を効率化することの重要性をチームは大幅に低く評価しています。異常の原因をどのようにして特定し、それが重要なのかさえわからない状況で、数十のツールの間を飛び回ることを想像してみてください。その結果、アラートを無視し、データのダウンタイムに苦しむ疲弊したチームになってしまいます。
Monte Carloは、このデータの新鮮さのインシデントのルート・コーズ分析を加速するために、GitHubのプルリクエストによって発生したdbtモデルのエラーとの関連を見つけ出しました。Monte Carloの画像を提供しています。
データの可観測性は、データ、システム、コードを横断的にルート・コーズ分析を加速し、組織、ドメイン、データ製品レベルでデータの健全性SLAを設定する能力によって特徴付けられます。
スピードと効率の必要性
データエンジニアはより速くパイプラインを構築することになります(Gen AIのおかげで!)し、それと同時に技術的負債が蓄積されます。つまり、クエリ、DAG、dbtモデルのパフォーマンスが低下します。
実行が遅いデータパイプラインは、より高コストで信頼性に欠け、データの利用者エクスペリエンスも悪くします。それはAIの時代には通用しません。特に経済が費用について慎重なアプローチを求める場合などは、さらにそうです。
そのため、パイプラインの最適化とパフォーマンスのモニタリングが必要です。データの可観測性はそれに対応する必要があります。
GenAIデータスタックの観察
過去数年間、データエンジニアリングや機械学習の領域にいた人々には当然のことですが、データが明確で構造化され、正確な場所では、LLMsはより優れたパフォーマンスを発揮します。
さらに、企業の状況を考慮しなければならない問題はほとんどありません。これは通常、ユーザーID、トランザクション履歴、発送時間、または内部文書、画像、ビデオなどの非構造化データなどの専有データです。これらは通常、データウェアハウス/レイクハウスに保管されます。ジェンAIチャットボットに、自分が誰であるかや過去の相互作用、会社のキャンセルの方針などの一部の文脈を持っていない場合、注文をキャンセルするように頼むことはできません。
ああ、いいよ。それが伝えるとおりだ、Chat-GPT 3.5。イメージ提供:モンテカルロ。
これらの課題を解決するために、組織は通常、RAG または事前学習/微調整アプローチを採用しています。どちらもスマートで信頼性のあるデータパイプラインを必要とします。簡単に言うと、RAGはLLMに追加の文脈を与えることで、通常はパイプラインから定期的にデータを取り込んでいる(多くの場合はベクトルデータベース…)データベースを介して行われます。一方、微調整または事前学習は、類似のデータポイントのトレーニングコーパスを提供することにより、LLMが特定の種類のリクエストでどのようにパフォーマンスを発揮するかを適応させるものです。この新興技術において、データの観察可能性はデータチームが信頼性と信頼性を提供するために必要です。
AI時代において、データエンジニアリングは今まで以上に重要です
データエンジニアリングは遅く進化している分野ではありませんでした。もし10年前にSparkクラスターについて話し始めたら、あなたは丁重に頷いて道路を渡っていたでしょう。
ギリシャのデータエンジニア哲学者を引用すると、唯一の定数は変化です。それに加えて、データエンジニアリングの唯一の定数は、ますます多くの要件です。より多くのデータ、より高い信頼性、そしてより高速な処理(でもコストを抑えてお願いします)。これからもGen AIは例外ではなく、我々はデータの観察可能性を突然訪れる未来との重要な橋と見なしています。
以上です。
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles