pd.read_htmlの良い点と悪い点、そして醜い点

pd.read_htmlの利点と欠点、そして問題点

初学者のpd.read_htmlファンベースのためのものです

準備はいいですか。🐴 データサイエンスのもう一つの優れた、悪い、醜い面を紹介します。

pd.read_html()または関連するpd.to_html()のファンではありませんか?それなら、何かを見逃しています。もしチャンスをくれたら、この記事の終わりまでにあなたを魅了します。

この記事では、まず簡単なpd.read_html()のデモンストレーションを行い、その良い点(強み)、悪い点(弱点と制限)、醜い点(変わった特徴)を紹介します。

Image Credit: Canvaのテキストを画像として作成したもの、作者による作品です。🤠 🐼

簡単に言うと、pd.read_html()はHTMLドキュメント内のすべてのテーブルを1行のコードで取得できます。もし感動しないのであれば、あなたはこれの使用方法や意味を十分に考えていないと確信します。

このウィキペディアのテーブルは、ミネソタ州の10,000の伝説的な湖に関する情報を示しています。

Image Credit: ウィキペディアからのスクリーンショットです。情報はウィキペディアとその寄与者によってクリエイティブ・コモンズ・ライセンスで共有されています。オリジナルはこちら: ミネソタの湖の一覧。

データ管理の観点から見ると、このテーブルは問題があります。9つの列がありますが、右端の列は時には埋められていますが、時には埋められていません。埋められていない場合、右端の列の一部はマージされることもありますが、常にそうとは限りません。一貫した構成は混ざっているため、問題があります。

問題のデモンストレーションとして、上記で表示されている6つの行をハイライトして、それをスプレッドシートにコピー&ペーストすることで、こちらの取り込みづらく、読みづらく、無用な結果を得ることができます。

Image Credit: 作者による手順に従ってキャプチャした画面です。

それ以外にも、次のコードのような1行の結果を考えてみてください:

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

完璧ではありませんが、次のようなより読みやすく有益な結果が返されます。

Image Credit: 作者によるコードを使用して作成したキャプチャ画像です。

良い点(強み)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ベイリー・カクスマー、ウォータールー大学の博士課程候補 - インタビューシリーズ

カツマー・ベイリーは、ウォータールー大学のコンピュータ科学学部の博士課程の候補者であり、アルバータ大学の新入教員です...

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...

データサイエンス

「Adam Ross Nelsonによる自信のあるデータサイエンスについて」

データサイエンスの中で新たな分野が現れ、研究内容が理解しにくい場合は、専門家や先駆者と話すのが最善です最近、私たちは...

人工知能

「Zenの共同創設者兼CTO、イオン・アレクサンドル・セカラ氏によるインタビューシリーズ」

創業者兼CTOであるIon-Alexandru Secaraは、Zen(PostureHealth Inc.)の開発を牽引しており、画期的な姿勢矯正ソフトウェア...

データサイエンス

「3つの質問:ロボットの認識とマッピングの研磨」

MIT LIDSのLuca CarloneさんとJonathan Howさんは、将来のロボットが環境をどのように知覚し、相互作用するかについて議論し...

人工知能

「アナコンダのCEO兼共同創業者、ピーターウォングによるインタビューシリーズ」

ピーター・ワンはAnacondaのCEO兼共同創設者ですAnaconda(以前はContinuum Analyticsとして知られる)を設立する前は、ピー...