データサイエンスにおけるツールに依存しない方向へ:SQLのCase WhenとPandasのWhere
データサイエンス:SQLのCase WhenとPandasのWhereへのツール非依存方向
例を挙げて説明します
お客様のデータはSQLデータベースにあります。いくつかのテーブルからデータを取得し、データのクリーニングと操作を行い、結果を別のテーブルに書き込むタスクが割り当てられました。
残念ながら、SQLでこれらの操作を行う方法を知りません。心配しないでください!データのクリーニングと操作にはPandasを使うのが得意です。したがって、次の解決策を考えました:
- SQLのテーブルからすべてのデータを取得する
- データをCSVファイルとしてダウンロードする
- CSVファイルをPandasのデータフレームに読み込む
- 必要なデータのクリーニングと操作を実行する
- 結果を別のCSVファイルに書き込む
- CSVファイルのデータをSQLのテーブルにアップロードする
素晴らしい計画ですね。
この計画を実行する場合、おそらくマネージャーと話をすることになるでしょう。その結果はマネージャーの人柄によって楽しいものになるか、不愉快なものになるかは異なります。いずれにせよ、その後はこの素晴らしい計画を実行しないと思います。
- 「私のデータサイエンスキャリアの2年後に発見した、Jupyter Notebookの5つの裏技」
- 「データサイエンス、機械学習、コンピュータビジョンプロジェクトを強化する 効果的なプロジェクト管理のための必須ツール」
- 「H1 2023 アナリティクス&データサイエンスの支出とトレンドレポート」
データサイエンスのタスクには通常、さまざまな方法があります。通常、非常に大きなデータセットを扱うため、常に効率的な方法を目指すべきです。必要以上に複雑にすることは余分な時間とお金がかかります。
「私はPandasが得意なので、すべてをPandasで行います」という態度は望ましくありません。データをSQLテーブルから読み取り、結果をSQLテーブルに書き込むタスクが含まれる場合、通常、その間のステップはSQLを使用するのが最良の方法です。
SQLは単なるクエリ言語ではありません。非常に効率的なデータ分析と操作ツールとしても使用できます。
私は、非常に複雑なデータ前処理操作を行うためにSQLのジョブを作成し、それらがうまく機能したことを覚えています。
データサイエンスはまだ進化中の分野です。新しいツールやコンセプトが短期間で導入されます。1つのツールに依存せず、常に新しいツールを学ぶことに開かれているべきです。
Pandas vs SQL
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles