pd.read_htmlの良い点と悪い点、そして醜い点

pd.read_htmlの利点と欠点、そして問題点

初学者のpd.read_htmlファンベースのためのものです

準備はいいですか。🐴 データサイエンスのもう一つの優れた、悪い、醜い面を紹介します。

pd.read_html()または関連するpd.to_html()のファンではありませんか?それなら、何かを見逃しています。もしチャンスをくれたら、この記事の終わりまでにあなたを魅了します。

この記事では、まず簡単なpd.read_html()のデモンストレーションを行い、その良い点(強み)、悪い点(弱点と制限)、醜い点(変わった特徴)を紹介します。

Image Credit: Canvaのテキストを画像として作成したもの、作者による作品です。🤠 🐼

簡単に言うと、pd.read_html()はHTMLドキュメント内のすべてのテーブルを1行のコードで取得できます。もし感動しないのであれば、あなたはこれの使用方法や意味を十分に考えていないと確信します。

このウィキペディアのテーブルは、ミネソタ州の10,000の伝説的な湖に関する情報を示しています。

Image Credit: ウィキペディアからのスクリーンショットです。情報はウィキペディアとその寄与者によってクリエイティブ・コモンズ・ライセンスで共有されています。オリジナルはこちら: ミネソタの湖の一覧。

データ管理の観点から見ると、このテーブルは問題があります。9つの列がありますが、右端の列は時には埋められていますが、時には埋められていません。埋められていない場合、右端の列の一部はマージされることもありますが、常にそうとは限りません。一貫した構成は混ざっているため、問題があります。

問題のデモンストレーションとして、上記で表示されている6つの行をハイライトして、それをスプレッドシートにコピー&ペーストすることで、こちらの取り込みづらく、読みづらく、無用な結果を得ることができます。

Image Credit: 作者による手順に従ってキャプチャした画面です。

それ以外にも、次のコードのような1行の結果を考えてみてください:

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

完璧ではありませんが、次のようなより読みやすく有益な結果が返されます。

Image Credit: 作者によるコードを使用して作成したキャプチャ画像です。

良い点(強み)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

ジョナサン・ダムブロット、Cranium AIのCEO兼共同創設者- インタビューシリーズ

ジョナサン・ダムブロットは、Cranium AIのCEO兼共同創業者ですCranium AIは、サイバーセキュリティおよびデータサイエンスチ...

人工知能

Aaron Lee、Smith.aiの共同設立者兼CEO - インタビューシリーズ

アーロン・リーさんは、Smith.aiの共同創業者兼CEOであり、AIと人間の知性を組み合わせて、24時間365日の顧客エンゲージメン...

データサイエンス

「David Smith、TheVentureCityの最高データオフィサー- インタビューシリーズ」

デビッド・スミス(別名「デビッド・データ」)は、TheVentureCityのチーフデータオフィサーであり、ソフトウェア駆動型のス...

人工知能

「Ntropyの共同創設者兼CEO、ナレ・ヴァルダニアンについて - インタビューシリーズ」

「Ntropyの共同創設者兼CEOであるナレ・ヴァルダニアンは、超人的な精度で100ミリ秒以下で金融取引を解析することを可能にす...

人工知能

「aiOlaのCEO兼共同創設者、アミール・ハラマティによるインタビューシリーズ」

アミール・ハラマティは、aiOlaのCEO兼共同創業者であり、スピーチを作業可能にし、どこでも完全な正確さで業界固有のプロセ...

人工知能

スコット・スティーブンソン、スペルブックの共同創設者兼CEO- インタビューシリーズ

スコット・スティーブンソンは、Spellbookの共同創設者兼CEOであり、OpenAIのGPT-4および他の大規模な言語モデル(LLM)に基...