데이터분석/Pyspark1 [Pyspark] pipeline() - kmeans sample code 1. 필요 라이브러리 from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler, StandardScaler from pyspark.ml.clustering import KMeans 2. 파이프라인에 담을 모델 생성 * outputCol은 다음 모델의 inputCol로 연결되어야한다. vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features") standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled") kmeans = KMeans(k=3, featuresC.. 2023. 6. 16. 이전 1 다음 728x90