pd.read_htmlの良い点と悪い点、そして醜い点

pd.read_htmlの利点と欠点、そして問題点

初学者のpd.read_htmlファンベースのためのものです

準備はいいですか。🐴 データサイエンスのもう一つの優れた、悪い、醜い面を紹介します。

pd.read_html()または関連するpd.to_html()のファンではありませんか？それなら、何かを見逃しています。もしチャンスをくれたら、この記事の終わりまでにあなたを魅了します。

この記事では、まず簡単なpd.read_html()のデモンストレーションを行い、その良い点（強み）、悪い点（弱点と制限）、醜い点（変わった特徴）を紹介します。

簡単に言うと、pd.read_html()はHTMLドキュメント内のすべてのテーブルを1行のコードで取得できます。もし感動しないのであれば、あなたはこれの使用方法や意味を十分に考えていないと確信します。

このウィキペディアのテーブルは、ミネソタ州の10,000の伝説的な湖に関する情報を示しています。

データ管理の観点から見ると、このテーブルは問題があります。9つの列がありますが、右端の列は時には埋められていますが、時には埋められていません。埋められていない場合、右端の列の一部はマージされることもありますが、常にそうとは限りません。一貫した構成は混ざっているため、問題があります。

問題のデモンストレーションとして、上記で表示されている6つの行をハイライトして、それをスプレッドシートにコピー＆ペーストすることで、こちらの取り込みづらく、読みづらく、無用な結果を得ることができます。

それ以外にも、次のコードのような1行の結果を考えてみてください：

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

完璧ではありませんが、次のようなより読みやすく有益な結果が返されます。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

93 out of 132 found this helpful