データサイエンティストのための時系列分析の簡素化

データサイエンティストのための時系列分析の簡素化

エディター注:Jeff TaoはODSC West 2023の講演者です。この秋、彼のトーク「時系列データベースとは何か、なぜ必要なのか?」を是非チェックしてください!

ほとんどのデータサイエンティストは時系列データの概念について理解しており、頻繁にそれと取り組んでいます。しかし、時系列データベース(TSDB)はまだデータサイエンスコミュニティで十分に活用されていないツールです。分析を実行するためにデータベースを設定することは困難な作業のように思えるかもしれませんが、現代のオープンソース時系列データベースは、大規模なデータセットで時系列分析を実行する科学者に重要な利益をもたらすことができます。しかも、想像以上に努力を要しません。

通常、時系列分析はCSVファイルまたはデータレイク上で行われます。これらは、事前に定義されたスキーマを必要とせずに、実質的にあらゆるタイプのデータを保存することができるため、従来のデータベースよりもシンプルな解決策のように思えるかもしれません。ただし、これらは各データポイントのコンテキストを維持するのが難しくなります。例えば、データ収集者の場所、収集時の温度、または分析が正しいことを保証するために保持する必要のある他の要素などです。さらに、データレイクの柔軟性により、データの組織方法がデータのクエリやフィルタリングを困難にするという望ましくない副作用が生じる場合があります。

一方、特定の目的に特化した時系列データベースは、各時系列に関連付けられたタグやラベルの形式でこのようなメタデータを簡単に維持できます。データのクレンジングや変換もTSDBでは簡単な作業になります。例えば、複数のデータセットのタイムスタンプを補完や集計関数で簡単に整列できます。また、SQLのようなクエリ言語を使用してデータを簡単に取得できます。値、タグ、時間範囲などでフィルタリングすることができます。

TDengineは、大規模な時系列データの分析プロセスを簡素化し、データサイエンティストがより多くの時間を科学に費やせるようにする時系列データベースの例です。TDengineは高性能かつスケーラブルなマッシブデータセットを高速に処理および保存し、従来のCSVファイルよりもSQLの少ない知識でデータを管理できます。最も重要なことは、TDengineを60秒で始めることができ、オープンソース版は無料でダウンロードして使用することができます。

デフォルトで累積和、時間加重平均、移動平均などのさまざまな時系列関数が提供されており、PythonやCでユーザー定義関数(UDF)も作成できます。pandasやJupyterなどの人気のあるPythonエコシステムプロジェクトへのサポートにより、データの入出力が簡単になります。Grafanaのような可視化ツールとのシームレスな統合により、革新的な方法で作業を表示し、新たな洞察を生成することができます。

時系列データベースについてもっと学び、時系列データを効率的に分析するためにどのように役立つかを知りたい場合は、ODSC West 2023で開催される「時系列データベースとは何か、なぜ必要なのか?」というセッションに参加することをお勧めします。このセッションではサンプルコードとデモが提供され、その後にトピックに関する質問にもお答えいたします。

著者について:

Jeff TaoはTDengineの創設者兼CEOです。彼は技術者およびシリアルアントレプレナーとしてのバックグラウンドを持ち、以前はMotorolaや3Comでモバイルインターネットの研究開発を行い、2つの成功したテックスタートアップを立ち上げました。現在進行中の機械やセンサーによって生成される時系列データの爆発的な成長を予見し、彼は2017年5月にTDengineを設立し、現代のIoTおよびIIoTビジネス向けに特化した高性能な時系列データベースを開発しました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more