PySparkにおけるロジスティック回帰の紹介

「PySpark で学ぶロジスティック回帰の基本」

Databricksで最初の分類モデルを実行するチュートリアル

Ibrahim Rifathによる写真 Unsplash

はじめに

ビッグデータ。大規模なデータセット。クラウド…

これらの言葉はどこにでもあり、クライアント、面接官、マネージャー、およびディレクターの考えに付きまとっています。データがますます豊富になるにつれて、データセットのサイズも増えていくため、ローカル環境(単一のマシン)で機械学習モデルを実行することはできない場合もあります。

この問題に対処するために、Sparkなどの他の解決策を探し、モデリングする必要があります。Sparkは、SQL、Python、Scala、Rなどの言語を受け入れ、独自のメソッドや属性、独自の機械学習ライブラリ[MLlib]も持っています。たとえば、PythonでSparkを使用する場合はPySparkと呼ばれます。

さらに、Databricksというプラットフォームがあり、Sparkを非常に優れたレイヤーでラップしており、データサイエンティストがAnacondaのようにそれで作業できます。

DatabricksでMLモデルを作成する際、Scikit Learnモデルも受け入れますが、私たちはビッグデータに関心があるので、このチュートリアルでは大規模データセットに適したSparkのMLlibを使用しています。また、新たなツールをスキルセットに追加する方法でもあります。

さあ、始めましょう。

データセット

この演習のデータセットは既にDatabricks内にあります。UCIデータセットの1つであるAdultsで、Censusからの抽出データであり、年収が$50,000以上または$50,000未満の個人がラベル付けされています。データはこのアドレスで公開されています:https://archive.ics.uci.edu/dataset/2/adult

当チュートリアルでは、年収が1年で$50,000未満または$50,000以上かどうかを示す2値分類器を作成します。

コーディング

このセクションでは、モデルの各ステップを確認します。

以下は、インポートする必要のあるモジュールです。

from pyspark.sql.functions import col
from pyspark.ml.feature import UnivariateFeatureSelector
from pyspark.ml.feature import RFormula
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import...

We will continue to update VoAGI; if you have any questions or suggestions, please contact us!

Share:

Was this article helpful?

93 out of 132 found this helpful

Discover more