[Pyspark] pipeline() - kmeans sample code

728x90

1. 필요 라이브러리

from pyspark.ml import Pipeline
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans

2. 파이프라인에 담을 모델 생성

* outputCol은 다음 모델의 inputCol로 연결되어야한다.

vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled")
kmeans = KMeans(k=3, featuresCol="features_scaled", predictionCol="prediction")

3. 파이프라인에 담기

pipeline = Pipeline(stages=[vector_assembler, standard_scaler, kmeans])
model = pipeline.fit(df)

이렇게 하면 파이프라인에 담긴 모델들이 순차적으로 학습된다.

저작자표시 변경금지 (새창열림)

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

생각하는 개구리

[Pyspark] pipeline() - kmeans sample code

댓글

티스토리툴바

개인정보

단축키

내 블로그

블로그 게시글

모든 영역