「初心者であることを知られずに伝える、6つのパンダの間違い」

6 common mistakes of hiding one's beginner status as a panda

エラーメッセージがないため、それが彼らを微妙にする要因です

はじめに

私たちは、コードを書いている間に頻繁に表示される大きな、太った、赤いエラーメッセージに慣れています。幸いにも、私たちは常にこれらのエラーを修正するため、人々はそれに気付きません。しかし、エラーが表示されない間違いについてはどうでしょうか？これらは最も厄介なものですが、プロの人々は簡単にそれらを見抜くことができます。

これらの間違いは、使用しているツールのAPIや構文とは関係がなく、ベストプラクティスやツールに費やす時間と直接関連しています。今日は、初心者のPandasユーザーの間でよく起こるこれらの6つの間違いについて話し、それらの解決方法を学びます。

1. Pandas自体の使用

実際には、特定のタスクにPandasを使用することに関連する最初の間違いは、少し皮肉です。具体的には、現在の実世界のタブularデータセットは非常に大きいです。これらをPandasで環境に読み込むことは大きな間違いです。

なぜなら、非常に遅いからです！以下では、2021年のTPS 10月のデータセットを1M行と約300のフィーチャーで読み込んで、2.2GBのディスク容量を使用しています。

約22秒かかりました。今、あなたは22秒はそれほどでもないと言うかもしれませんが、これを想像してください。単一のプロジェクトで、異なる段階で多くの実験を行います。おそらく、クリーニング、特徴エンジニアリング、モデルの選択などのタスクに対して別々のスクリプトやノートブックを作成するでしょう。

データの読み込みに20秒待つことが何度も神経を逆なでするのです。さらに、データセットはさらに大きいかもしれません。では、より速い解決策は何でしょうか？

この段階では、Pandasを捨てて、高速なIOのために明示的に設計された他の代替手段を使用することです。この段階では、私のお気に入りはdatatableですが、Dask、Vaex、cuDF、またはpolarsを選択することもできます。以下は、datatableを使用して同じデータセットを読み込むのにかかる時間です：

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Was this article helpful?

93 out of 132 found this helpful

「初心者であることを知られずに伝える、6つのパンダの間違い」

エラーメッセージがないため、それが彼らを微妙にする要因です

はじめに

1. Pandas自体の使用

Was this article helpful?

「WavJourney：オーディオストーリーライン生成の世界への旅」

DSPyの内部：知っておく必要のある新しい言語モデルプログラミングフレームワーク

人工知能

Q&A：ブラジルの政治、アマゾンの人権、AIについてのGabriela Sá Pessoaの見解

「UVeyeの共同設立者兼CEO、アミール・ヘヴェルについてのインタビューシリーズ」

「ゲイリー・ヒュースティス、パワーハウスフォレンジクスのオーナー兼ディレクター- インタビューシリーズ」

『ジュリエット・パウエル&アート・クライナー、The AI Dilemma – インタビューシリーズの著者』

『DeepHowのCEO兼共同創業者、サム・ジェン氏によるインタビューシリーズ』

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ