pd.read_htmlの良い点と悪い点、そして醜い点

pd.read_htmlの利点と欠点、そして問題点

初学者のpd.read_htmlファンベースのためのものです

準備はいいですか。🐴 データサイエンスのもう一つの優れた、悪い、醜い面を紹介します。

pd.read_html()または関連するpd.to_html()のファンではありませんか?それなら、何かを見逃しています。もしチャンスをくれたら、この記事の終わりまでにあなたを魅了します。

この記事では、まず簡単なpd.read_html()のデモンストレーションを行い、その良い点(強み)、悪い点(弱点と制限)、醜い点(変わった特徴)を紹介します。

Image Credit: Canvaのテキストを画像として作成したもの、作者による作品です。🤠 🐼

簡単に言うと、pd.read_html()はHTMLドキュメント内のすべてのテーブルを1行のコードで取得できます。もし感動しないのであれば、あなたはこれの使用方法や意味を十分に考えていないと確信します。

このウィキペディアのテーブルは、ミネソタ州の10,000の伝説的な湖に関する情報を示しています。

Image Credit: ウィキペディアからのスクリーンショットです。情報はウィキペディアとその寄与者によってクリエイティブ・コモンズ・ライセンスで共有されています。オリジナルはこちら: ミネソタの湖の一覧。

データ管理の観点から見ると、このテーブルは問題があります。9つの列がありますが、右端の列は時には埋められていますが、時には埋められていません。埋められていない場合、右端の列の一部はマージされることもありますが、常にそうとは限りません。一貫した構成は混ざっているため、問題があります。

問題のデモンストレーションとして、上記で表示されている6つの行をハイライトして、それをスプレッドシートにコピー&ペーストすることで、こちらの取り込みづらく、読みづらく、無用な結果を得ることができます。

Image Credit: 作者による手順に従ってキャプチャした画面です。

それ以外にも、次のコードのような1行の結果を考えてみてください:

pd.read_html('https://en.wikipedia.org/wiki/List_of_lakes_of_Minnesota')[1]

完璧ではありませんが、次のようなより読みやすく有益な結果が返されます。

Image Credit: 作者によるコードを使用して作成したキャプチャ画像です。

良い点(強み)

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

人工知能

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『AIのジレンマ』は、ジュリエット・パウエルとアート・クライナーによって書かれましたジュリエット・パウエルは、著者であ...

人工知能

「マーク・A・レムリー教授による生成AIと法律について」

データサイエンス内で新しい分野が現れ、研究内容が理解しにくい場合は、専門家やパイオニアと話すことが最善です最近、私た...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

AIニュース

Q&A:ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

ブラジルの社会正義のジャーナリストは、MIT国際研究センターのフェローです