「初心者であることを知られずに伝える、6つのパンダの間違い」

6 common mistakes of hiding one's beginner status as a panda

エラーメッセージがないため、それが彼らを微妙にする要因です

私の画像

はじめに

私たちは、コードを書いている間に頻繁に表示される大きな、太った、赤いエラーメッセージに慣れています。幸いにも、私たちは常にこれらのエラーを修正するため、人々はそれに気付きません。しかし、エラーが表示されない間違いについてはどうでしょうか?これらは最も厄介なものですが、プロの人々は簡単にそれらを見抜くことができます。

これらの間違いは、使用しているツールのAPIや構文とは関係がなく、ベストプラクティスやツールに費やす時間と直接関連しています。今日は、初心者のPandasユーザーの間でよく起こるこれらの6つの間違いについて話し、それらの解決方法を学びます。

1. Pandas自体の使用

実際には、特定のタスクにPandasを使用することに関連する最初の間違いは、少し皮肉です。具体的には、現在の実世界のタブularデータセットは非常に大きいです。これらをPandasで環境に読み込むことは大きな間違いです。

なぜなら、非常に遅いからです!以下では、2021年のTPS 10月のデータセットを1M行と約300のフィーチャーで読み込んで、2.2GBのディスク容量を使用しています。

約22秒かかりました。今、あなたは22秒はそれほどでもないと言うかもしれませんが、これを想像してください。単一のプロジェクトで、異なる段階で多くの実験を行います。おそらく、クリーニング、特徴エンジニアリング、モデルの選択などのタスクに対して別々のスクリプトやノートブックを作成するでしょう。

データの読み込みに20秒待つことが何度も神経を逆なでするのです。さらに、データセットはさらに大きいかもしれません。では、より速い解決策は何でしょうか?

この段階では、Pandasを捨てて、高速なIOのために明示的に設計された他の代替手段を使用することです。この段階では、私のお気に入りはdatatableですが、DaskVaexcuDF、またはpolarsを選択することもできます。以下は、datatableを使用して同じデータセットを読み込むのにかかる時間です:

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more

人工知能

「シフトのCEOであるクリス・ナーゲル – インタビューシリーズ」

クリスはSiftの最高経営責任者です彼は、Ping Identityを含むベンチャー支援および公開SaaS企業のシニアリーダーシップポジシ...

AIテクノロジー

「LXTのテクノロジーバイスプレジデント、アムル・ヌール・エルディン - インタビューシリーズ」

アムル・ヌール・エルディンは、LXTのテクノロジー担当副社長ですアムルは、自動音声認識(ASR)の文脈での音声/音響処理と機...

人工知能

「ElaiのCEO&共同創業者、Vitalii Romanchenkoについてのインタビューシリーズ」

ヴィタリー・ロマンチェンコは、ElaiのCEO兼共同創設者であり、マイク、カメラ、俳優、スタジオの必要なく、個人が一流のビデ...

人工知能

アーティスの創設者兼CEO、ウィリアム・ウーによるインタビューシリーズ

ウィリアム・ウーは、Artisseの創設者兼CEOであり、ユーザーの好みに基づいて写真を精密に変更する技術を提供していますそれ...

機械学習

もし芸術が私たちの人間性を表現する方法であるなら、人工知能はどこに適合するのでしょうか?

MITのポストドクターであるジヴ・エプスタイン氏(SM '19、PhD '23)は、芸術やその他のメディアを作成するために生成的AIを...

人工知能

ムーバブルインクのCEO兼共同創設者であるヴィヴェク・シャルマ氏についてのインタビュー・シリーズ

ビヴェクは2010年にムーバブルインクを共同設立し、急速な成長を遂げながら、600人以上の従業員を擁し、世界有数の革新的なブ...