「Pythonデータ操作スキルを向上させるための2つのタスク」

「Pythonデータ操作スキルを向上させるための2つの実践課題」

生データをより使いやすく、構造化された形式に変換する方法

(画像は Midjourney によって作成されました)

新しいツールを学ぶとき、通常はドキュメントを読み、チュートリアルを見たり記事を読んだり、例を解いたりします。これは十分なアプローチであり、ツールをある程度学ぶのに役立ちます。

しかし、実際の場面でツールを使用したり実際の問題を解決する際には、ほとんどのチュートリアルでカバーされている内容に少し足りない部分が必要です。

本記事では、私が仕事で2つの異なるデータクリーニングおよび前処理タスクにPythonを使用した方法を段階的に説明します。それぞれのタスクについて、元の生データと目的の形式を示します。その後、データをその形式に変換するためのコードを説明します。

Pythonの組み込みデータ構造とPandasライブラリに詳しく取り組むので、Pythonを使ったデータ前処理に関していくつかの興味深い情報を学ぶことができるでしょう。

1. イシューの統計

イシューとその概要のリストを含むDataFrameがあります。ここではオリジナルのデータは使用せず、同じ形式のモックデータを生成しています。コードを実行して一緒に進める場合は、私のdatasetsのリポジトリから「mock_issues.csv」ファイルをダウンロードしてください。

データの前処理に関して行うことは、内容ではなく形式に基づいていますので、この記事で学ぶ関数やメソッドは元のデータにも適用できます。実際、このプロセスは私の仕事で行ったものとまったく同じです。

次の列を持つ複数の行のDataFrameがあると思ってください:

(画像は著者によって作成されました)

生のイシュー列のそれぞれの行には、次の形式でイシューのリストが含まれています:

""""[1-データ構造を非効率的に使用しているfind_duplicatesメソッドは時間計算量が高いです。, 2-ビルトインのデータ構造をgenerate_metaメソッドで効果的に使用していません。, 3-ExerciseGeneratorクラスでは、グローバル変数の過剰な使用がプログラムのスローダウンの原因になる可能性があります。, 4-get_all_contributors_for_repoメソッドはビルトインの使用していません...

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more