PySparkにおけるロジスティック回帰の紹介
「PySpark で学ぶロジスティック回帰の基本」
Databricksで最初の分類モデルを実行するチュートリアル
はじめに
ビッグデータ。大規模なデータセット。クラウド…
これらの言葉はどこにでもあり、クライアント、面接官、マネージャー、およびディレクターの考えに付きまとっています。データがますます豊富になるにつれて、データセットのサイズも増えていくため、ローカル環境(単一のマシン)で機械学習モデルを実行することはできない場合もあります。
この問題に対処するために、Sparkなどの他の解決策を探し、モデリングする必要があります。Sparkは、SQL、Python、Scala、Rなどの言語を受け入れ、独自のメソッドや属性、独自の機械学習ライブラリ[MLlib]も持っています。たとえば、PythonでSparkを使用する場合はPySparkと呼ばれます。
さらに、Databricksというプラットフォームがあり、Sparkを非常に優れたレイヤーでラップしており、データサイエンティストがAnacondaのようにそれで作業できます。
- 「ジオスペーシャルデータの同時変化を示すためのPythonによる5つの可視化」
- 2024年、データサイエンティストとして、より良いワークライフバランスを実現するために、以下の境界線を設定しましょう
- 「Matplotlibフィギュアに挿入軸を追加する」
DatabricksでMLモデルを作成する際、Scikit Learnモデルも受け入れますが、私たちはビッグデータに関心があるので、このチュートリアルでは大規模データセットに適したSparkのMLlibを使用しています。また、新たなツールをスキルセットに追加する方法でもあります。
さあ、始めましょう。
データセット
この演習のデータセットは既にDatabricks内にあります。UCIデータセットの1つであるAdultsで、Censusからの抽出データであり、年収が$50,000以上または$50,000未満の個人がラベル付けされています。データはこのアドレスで公開されています:https://archive.ics.uci.edu/dataset/2/adult
当チュートリアルでは、年収が1年で$50,000未満または$50,000以上かどうかを示す2値分類器を作成します。
コーディング
このセクションでは、モデルの各ステップを確認します。
以下は、インポートする必要のあるモジュールです。
from pyspark.sql.functions import col
from pyspark.ml.feature import UnivariateFeatureSelector
from pyspark.ml.feature import RFormula
from pyspark.ml.feature import StringIndexer, VectorAssembler
from pyspark.ml import...
We will continue to update VoAGI; if you have any questions or suggestions, please contact us!
Was this article helpful?
93 out of 132 found this helpful
Related articles