「Scikit-LearnとMatplotlibによる外れ値の検出:実践ガイド」

『美容とファッションの世界』

ビジュアライゼーション、アルゴリズム、統計がどのように機械学習タスクの異常を特定するのに役立つかを学びましょう。

What do balloons have to do with outliers? Find the answer in the introduction. Image source: pixabay.com.

色とりどりの気球でいっぱいの部屋を想像してみてください。それぞれの気球はデータセット内のデータポイントを象徴しており、異なる特徴を持つため、違う高さで浮かんでいます。そして、予想外に高く飛び上がるヘリウム入りの気球がいくつかあります。この特別な気球が部屋の均一性を乱すように、外れ値もデータセット内のパターンを乱します。

このカラフルなアナロジーから純粋な統計に戻ると、外れ値とは、異常値やデータセットの他のデータポイントから大きく逸脱したデータポイントのことを指します。

患者データに基づいて疾患を診断するために開発された機械学習アルゴリズムを考えてみてください。この現実世界の例では、外れ値は実験室結果や生理的パラメータの非常に高い値である可能性があります。その原因はデータ収集エラー測定の不正確性、または本当の稀な事象などさまざまな理由が考えられますが、これらの存在によってアルゴリズムは正しく診断を行えなくなる可能性があります。

これこそが、私たち機械学習やデータサイエンスのプラクティショナーが常に外れ値を注意深く扱わなければならない理由です。

この短い記事では、データから外れ値を効率的に特定し削除するためのいくつかの手法を説明します。

その中の一つはSVMであり、私はこの記事で探索しました。

Scikit-Learnを使ったサポートベクターマシン:フレンドリーな紹介

全てのデータサイエンティストにはSVMがツールボックスに必要です。この汎用モデルを実践的にマスターする方法を学びましょう…

towardsdatascience.com

外れ値とは何ですか?

外れ値とは、データセット内で特徴を持たないデータポイント、またはより他と大きく逸脱するデータポイントのことを指します。その簡単な定義にもかかわらず、これらの異常値を検出することは常に簡単ではありませんが、まず次の基本的な質問に答えてみましょう。

なぜデータセット内の外れ値を検出したいのですか?

この質問には2つの答えがあります。外れ値を検出する最初の理由は、これらが…

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more