データサイエンスにおけるツールに依存しない方向へ:SQLのCase WhenとPandasのWhere

データサイエンス:SQLのCase WhenとPandasのWhereへのツール非依存方向

例を挙げて説明します

UnsplashでMonika Simeonovaによる写真

お客様のデータはSQLデータベースにあります。いくつかのテーブルからデータを取得し、データのクリーニングと操作を行い、結果を別のテーブルに書き込むタスクが割り当てられました。

残念ながら、SQLでこれらの操作を行う方法を知りません。心配しないでください!データのクリーニングと操作にはPandasを使うのが得意です。したがって、次の解決策を考えました:

  • SQLのテーブルからすべてのデータを取得する
  • データをCSVファイルとしてダウンロードする
  • CSVファイルをPandasのデータフレームに読み込む
  • 必要なデータのクリーニングと操作を実行する
  • 結果を別のCSVファイルに書き込む
  • CSVファイルのデータをSQLのテーブルにアップロードする

素晴らしい計画ですね。

この計画を実行する場合、おそらくマネージャーと話をすることになるでしょう。その結果はマネージャーの人柄によって楽しいものになるか、不愉快なものになるかは異なります。いずれにせよ、その後はこの素晴らしい計画を実行しないと思います。

データサイエンスのタスクには通常、さまざまな方法があります。通常、非常に大きなデータセットを扱うため、常に効率的な方法を目指すべきです。必要以上に複雑にすることは余分な時間とお金がかかります。

「私はPandasが得意なので、すべてをPandasで行います」という態度は望ましくありません。データをSQLテーブルから読み取り、結果をSQLテーブルに書き込むタスクが含まれる場合、通常、その間のステップはSQLを使用するのが最良の方法です。

SQLは単なるクエリ言語ではありません。非常に効率的なデータ分析と操作ツールとしても使用できます。

私は、非常に複雑なデータ前処理操作を行うためにSQLのジョブを作成し、それらがうまく機能したことを覚えています。

データサイエンスはまだ進化中の分野です。新しいツールやコンセプトが短期間で導入されます。1つのツールに依存せず、常に新しいツールを学ぶことに開かれているべきです。

Pandas vs SQL

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more