ミネソタ湖のデータのクリーニング+準備

『ミネソタ湖のデータのクリーニングと準備』

ミネソタ州の湖のウィキペディアのリストを整理する方法

先日、故郷の湖の美しい景色を車で見かけました。それはメノミン湖として知られています。ここでお楽しみいただくために写真を撮りました。

画像クレジット: 作者の撮影によるメノミニー、ウィスコンシンのダウンタウンを横断するメノミン湖。

その後、ウィスコンシン州のすべての湖と湖の特徴を含むデータセットがクラスタリングのチュートリアルとして面白いかもしれないと思いました。熱心に探してみましたが、そのようなデータセットは見つかりませんでした。

しかし、ウィスコンシンの西にある幸せな隣人はミネソタ州です。ミネソタ州には1万の湖があると言われていますが、この記事ではその数を検証します。

この記事は、ミネソタの湖のデータを取得し、分析のために整理するプロセスを示すチュートリアルです。

データの取得

以前に pd.read_html() について書いたことがあり、強み(良い)、制限と欠点(悪い)、およびクセ(醜い)について説明しました:pd.read_htmlの長所と短所

ここでは再び、pd.read_html() を使用してウィキペディアのミネソタ州の湖の一覧からメインのテーブルを簡単かつ便利に取得します。このデータの取得と準備のタスクは、標準的なインポートから始めます。また、クリーンアップ作業に正規表現モジュールも使用します。

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as snsimport reweb = 'https://en.wikipedia.org/'          # ベースURLを指定path = 'wiki/List_of_lakes_of_Minnesota'   # URLパスを指定tables = pd.read_html(web + path)          # URLをpd.read_html()に渡してテーブルを取得df = tables[1]                             # 興味のあるテーブルを分離

上記のコードでは、まずベースURLとウィキペディアの記事へのパスを指定します。次に、そのURLとパスをpd.read_html()に渡して、テーブルのリストが返されます。最後に、tablesリストの角括弧の表記法を使用して、興味のあるメインテーブル(湖のデータ)を分離します。これらのデータは以下のように表示されます:

画像クレジット: 作者のスクリーンショット。ここに示すコードで生成されました。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more