これらの4つのパッケージで、あなたの探索的データ分析を簡素化する
これらの4つのパッケージで、データ分析を簡素化する
データサイエンティストが持つべき4つの必須ツール
データサイエンティストとして生きる今は素晴らしい時代です!以前は時間のかかる作業も今では自動化され、洞察の創出や機械学習モデルの設計の改善に多くの余地が生まれました。
既にこれらのツールについてはたくさんの情報がありますが、私はツールの選択を制限し、また私自身のユニークな視点と経験をこれらのライブラリの使用に取り入れることで、さらなる価値を追加したいと考えています。方法論について慎重である必要があるため、私たちは迅速に、特定のシナリオで最も適したパッケージを選択する必要があることに気付くでしょう。その中で重要な考慮事項としては、速度、シンプルさ、包括性、データのサイズなどが挙げられます。
この記事は次のデータ可視化に関する記事の続きとなる可能性があります:
- 探索的データ解析(EDA)を劇的に改善する方法
- 探索的データ解析(EDA)で絶対にスキップしてはいけないステップ!
- バーチャートレースで可視化をステップアップ
それではさっそく始めましょう!
- 「過去のデータ、Ray、およびAmazon SageMakerを使用して装置のパフォーマンスを最適化する」
- 「PythonとMatplotlibを使用して米国のデータマップを作成する方法」
- 「データサイエンスのベストプラクティス、パート1 – クエリをテストする」
データセット
まず、十分な量的およびカテゴリカル変数を持つデータセットを選びましょう。これにより、各可視化パッケージを自分自身の用途に合わせて評価・批評することができます。
OpenMLからデータセットを取得しましょう:
pip install openml
このパッケージをインストールしたら、次にフィリピンの所得と支出のデータセットをダウンロードしましょう。
フィリピン統計局(PSA)は定期的に全国的な家族所得と支出調査(FIES)を3年ごとに実施しています。この調査は、フィリピンにおける家族の所得、支出パターン、およびその他の関連要素に関するデータを収集することを目的としています。
このデータセットには、最新のFIESから選択された変数が含まれており、主に家計の所得と経費に焦点を当てた40,000以上の観測値と60の変数が特徴としています。このデータは、フィリピンにおける普遍的に受け入れられた社会経済分類モデルの欠如を解決するために、最適な予測モデルを探索することを目的としています…
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles