「近似予測」によって特徴選択を劇的に高速化

「近似予測」による特徴選択の劇的な高速化

特徴選択は非常に遅いため、多くのモデルの作成が必要です。近似予測によって、それを劇的に高速化する方法を見つけましょう。

[Image by Author]

機械学習モデルを開発する際には、通常、特徴エンジニアリングの結果得られる大量の特徴のセットから始めます。

特徴選択は、MLモデルに最適な小さな特徴のサブセットを選択するプロセスです。

なぜ特徴を選択するのか、すべての特徴を保持しないのかということですか?

  • メモリ。ビッグデータは大きなスペースを占有します。特徴を削除することは、データを扱うために必要なメモリを減らすことを意味します。場合によっては外部の制約もあります。
  • 時間。データ量が少ない状態でモデルを再トレーニングすることは、多くの時間を節約できます。
  • 精度。少ない方が良いということが、機械学習にも適用されます。冗長または関連性のない特徴を含めることは、不要なノイズを含めることを意味します。頻繁に、データ量が少ないモデルの方が優れたパフォーマンスを発揮することがあります。
  • 説明可能性。小さなモデルの方が説明しやすいです。
  • デバッグ。小さなモデルは保守やトラブルシューティングが簡単です。

さて、特徴選択の主な問題は、多くのモデルのトレーニングが必要なため非常に遅いということです。

本記事では、「近似予測」のおかげで特徴選択を劇的に高速化するトリックを紹介します。

非常に困難な問題

特徴選択の問題を視覚化してみましょう。通常、N個の特徴(一般的には数百から数千個)で開始します。

したがって、特徴選択の出力は「はい」/「いいえ」からなる長さNの配列として表すことができます。配列の各要素は、対応する特徴が選択されたかどうかを示します。

特徴選択の出力。[画像提供: 著者]

特徴選択のプロセスは、さまざまな「候補」を試して最終的に最適なものを選ぶことで構成されます(性能指標に基づいて)。

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more