合成データのフィールドガイド

'合成データのフィールドガイド' can be translated as 'Field Guide to Synthetic Data'.

さまざまなフェイクデータの種類:パート2へのガイド

データを扱いたい場合、どのような選択肢がありますか?できるだけ簡単な回答としては、リアルなデータを手に入れるか、フェイクデータを手に入れるかです。

前の記事では、シンセティックデータの概念について説明し、その作成における思考プロセスについて話し合いました。リアルデータ、ノイズデータ、手作りデータを比較しました。では、数を選ぶために人間に頼むよりも洗練されたシンセティックデータの種類について掘り下げてみましょう…

イギリスのスケッチコメディの名作です。

(注:この記事のリンクは、同じ著者による説明者へのリンクです。)

重複データ

もしかしたら、実際の人間の身長を1万件測定したけれども、2万のデータポイントが欲しいかもしれません。あなたが取る方法は、既存のデータセットが既に人口をかなりよく表していると仮定することです。(仮定は常に危険ですので、注意して進んでください。)その場合、データセットを単純に複製するか、一部をコピー&ペーストすることができます。ターダ!データが増えました!しかし、それは良いか有用なデータなのでしょうか?それは常に必要な用途に依存します。ほとんどの場合、答えはノーでしょう。でもね、頭がある理由がありますし、それは噛んで、最善の判断を行うことです。

リサンプルデータ

データの一部のみを複製するという話になりますが、選択する部分を決めるのにランダムな要素を加える方法があります。既存の身長リストからドローするためにランダムな数値生成器を使用することができます。これを「置換なし」で行うこともできます。つまり、既存の身長の各値を最大1回コピーするだけですが…

ブートストラップデータ

この場合、より頻繁に行われるのは、「置換あり」ということです。つまり、ランダムに身長を選んでコピーするたびに、それが行われたことをすぐに忘れて、同じ身長がデータセットに2回目、3回目、4回目などのコピーとして登場するようにします。コメントで十分な関心がある場合、なぜこれが人口推定において強力で効果的なテクニックであるか(最初は魔法のように聞こえますが、私もそう思いました)を説明します。

拡張データ

拡張データは高級に聞こえるかもしれませんが、実際にはデータを拡張するための高級な方法がありますが、通常、この用語を見ると、リサンプルされたデータにランダムなノイズを追加したものを指します。言い換えれば、統計的な分布からランダムな数値を生成し、通常はそれをリサンプルされたデータポイントに追加するだけです。それだけです。それが拡張です。

All image rights belong to the author.

オーバーサンプルデータ

データの一部のみを複製するという話になりますが、ある特性を他の特性よりも意図的に増強する方法があります。たとえば、典型的なAIカンファレンスでの測定データを取った場合、女性の身長がデータ内で過小評価されているかもしれません(現実ですが、悲しいことです)。これは「不均衡データ」という問題と呼ばれます。その特性の表現を再バランスさせるための技術(Synthetic Minority Oversampling TEchnique、SMOTE)などがあります。最も単純な方法は、少数データポイントにリサンプリングを制限することで、他のデータを無視することです。したがって、例えば、女性の身長だけをリサンプルし、他のデータを無視します。さらに洗練された拡張も考慮することができますが、それも女性の身長に限定されます。

さらに洗練された方法を知りたい場合は、Adaptive Synthetic Sampling(ADASYN)などのテクニックを調べ、このトピックの簡単な紹介の範囲を超えたトレイルを辿ってみてください。

エッジケースデータ

あなたは(手作りの)データを作り上げることもできます。それはあなたや他の誰も見たことのないものとは全く異なるデータです。これは、現実の世界のモデルを作成しようとしている場合には非常に愚かなことですが、システムが奇妙なものを処理できる能力をテストするために使用する場合には賢明です。外れ値に遭遇した際にモデル/理論/システムがうまく動作するかどうかを確認するために、意図的に合成的な外れ値を作成することができます。どうぞ、高さ3メートルを入力して、何が爆発するか確認してみてください。職場での消防訓練のようなものです。(実際のビル内に火を放置したり、データセットに実際のモンスターの外れ値を残したりしないでください。)

http://bit.ly/quaesita_ytoutliers

シミュレートされたデータ

データを自分の仕様に応じて作り上げるアイデアに慣れてきたら、さらに一歩踏み込んで、データセットに望むデータの基本的な性質を記述するレシピを作成してみてはいかがでしょうか。ランダムな要素がある場合、実際に行っているのは、統計的な分布からシミュレーションしているということです。その際、モデル(単に「レシピとして使用する数式」と言う方法)によって説明されるコア原則を指定することができます。ランダムな部分の動作方法に関するルールを持つものです。バニラのデータ拡張技術のように既存のデータポイントにランダムなノイズを加える代わりに、瞑想や関連データセットとの統計的推論を行うことで、考案したルールにノイズを加えることができます。詳しくはこちらをご覧ください。

画像の権利はすべて著者に帰属します。

単一の数値を超えて

身長?一度に一つの身長のデータセットを求めているのですか?つまらない!…退屈なディスク時代ですね。これを単変量データと呼び、最近では野生で集められることはまれです。

今では非常に大容量のストレージを持っているので、データはより興味深く、複雑な形式で提供されることがあります。身長と一緒に追加の特徴も簡単に記録できます。たとえば、髪型を記録して、データセットを二変量にすることもできます。しかし、そこで止める必要はありません。年齢も追加しましょう。データは多変量です。楽しいですね!

しかし、最近では、これに加えて画像データ(身長測定中の写真を撮る)やテキストデータ(統計の授業が不必要に退屈だと書いたエッセイ)を組み合わせることもできます。これを多様なデータと呼び、それも合成することができます!これについてもっと詳しく知りたい場合は、コメントで教えてください。

なぜ誰かが合成データを作りたいと思うのでしょうか?それを愛する理由もあり、避けるべき理由もあります(近日中に記事を公開します)。ただし、データサイエンスの専門家であれば、頻繁に使用することのおすすめの理由を知るために、この記事に移動してください。

読んでいただきありがとうございます!YouTubeコースはいかがですか?

ここで楽しんでいただけたら、初心者からエキスパートまで楽しめる、完全に応用的なAIコースをご紹介します:

YouTubeでコースをお楽しみください。

P.S. VoAGIで何度も拍手ボタンを押してみたことはありますか? 何が起こるか見てみるといいですよ ❤️

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more