본문 바로가기
데이터분석/Pyspark

[Pyspark] pipeline() - kmeans sample code

by Kc93 2023. 6. 16.
728x90
반응형

1. 필요 라이브러리

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans

2. 파이프라인에 담을 모델 생성

* outputCol은 다음 모델의 inputCol로 연결되어야한다. 

vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled")
kmeans = KMeans(k=3, featuresCol="features_scaled", predictionCol="prediction")

3. 파이프라인에 담기

pipeline = Pipeline(stages=[vector_assembler, standard_scaler, kmeans])
model = pipeline.fit(df)

 

이렇게 하면 파이프라인에 담긴 모델들이 순차적으로 학습된다.

반응형

댓글