『MakeBlobs + フィクショナルな合成データ:新しい(まあ、新しい)ユースケース』

『メイクブロブス + フィクショナルな合成データ:新しいユースケースの探求』

この知られざるSkLearnモジュールを使用して、プロジェクト(およびデータサイエンスの練習)に新たな息吹を与える

Open Data Science Conference(ODSC)のウェストエディションで、合成データのトピックについての最も注目されたパネルの1つは、”make_blobs”を使って新しいフィクションデータセットを素早く作成する方法についてです。

Image Credit: ODSC Conference. Four panelists speaking about synthetic data including, Ali Golshan, Jay Alammar, Sheamus McGovern, and Yashar Behzadi. Image used with permission.

データサイエンスの領域では、フィクションですがリアリティのあるデータの価値がしばしば過小評価されています。この記事では、人気のあるScikit-Learnライブラリ内のあまり知られていないモジュールであるmake_blobsMinMaxScalerの組み合わせにスポットライトを当て、データサイエンスのトレーニング、テスト、教育、デモ目的におけるリアリティのあるフィクションデータ生成に役立つツールであることを紹介します。

フィクション合成データのトピックについては、これが初めてではありません。たとえば、私は数年前にフィクションデータの作り方という記事を書きました。この記事では、テスト、トレーニング、またはデモなどのさまざまな目的で独自のデータセットを生成する方法を読者に案内しました。特にデータサイエンティストやデータサイエンスを学ぶ人にとって、フィクションデータの作成の有用性を強調しました。PythonとPandas、NumPy、Seabornなどのライブラリを使用して、西部と東部の2つのフィクションの鳥の種類のデータ生成の詳細な例を示しました。

さらに、フィクションデータを生成するさらなる3つの方法でもフィクションデータについて再び書きました。この記事の主なポイントは、各ツールにはそれぞれの強みと弱点があるということです。特定のフィクションデータ要件を完全に満たすために、これらのツールを手動でデータを生成するか、組み合わせて使用するのが最も適していると提案しました。

私はまた、データサイエンスを学ぶ人々に自分自身のデータを作成するように勧めています。それによって、データの整形、データの可視化に関するスキルが向上し、分布に関する知識も深まります。Pythonでフィクションデータを作成するための詳しいチュートリアルは、プロのチュートリアル:Pythonでフィクションデータを作成する方法で提供しています。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more