728x90
반응형
1. 필요 라이브러리
from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans
2. 파이프라인에 담을 모델 생성
* outputCol은 다음 모델의 inputCol로 연결되어야한다.
vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled")
kmeans = KMeans(k=3, featuresCol="features_scaled", predictionCol="prediction")
3. 파이프라인에 담기
pipeline = Pipeline(stages=[vector_assembler, standard_scaler, kmeans])
model = pipeline.fit(df)
이렇게 하면 파이프라인에 담긴 모델들이 순차적으로 학습된다.
반응형
댓글