본문 바로가기

데이터분석53

[Pandas] Dataframe groupby 데이터 전처리를 하면서 raw data를 한 번에 가져와서 전처리 하기 보다는, 쿼리든 함수든 한 번 필터링이 가능 하다면 속도와 효율성에서 큰 효과를 얻을 수 있다. from sklearn import datasets import pandas as pd # 샘플파일 iris = datasets.load_iris() df_iris = pd.DataFrame(data=iris.data,columns=iris.feature_names) df_iris['label'] = iris.target groupby("특정컬럼이름").연산함수() # groupby df_iris.groupby("label").sum() 2023. 6. 25.
[Pyspark] pipeline() - kmeans sample code 1. 필요 라이브러리 from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler, StandardScaler from pyspark.ml.clustering import KMeans 2. 파이프라인에 담을 모델 생성 * outputCol은 다음 모델의 inputCol로 연결되어야한다. vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features") standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled") kmeans = KMeans(k=3, featuresC.. 2023. 6. 16.
[Python] import time, 시간 측정 import time start = time.time() "측정하고자 하는 코드" end = time.time() print(end - start) 2023. 6. 16.
[Python] pip error 처리 pip 재설치 python -m ensurepip --upgrade pip 업그레이드 python -m pip install --upgrade pip 2023. 5. 26.
[Python] Anaconda(아나콘다) 명령어 간단 정리 # anaconda 버전 확인 conda --version # anaconda 업데이트 conda update conda # anaconda 가상 환경 생성 conda create -n '내가 만든 가상환경' python=3.7 # anaconda 가상 환경 목록 conda info --envs # 가상 환경 실행 conda activate '내가 만든 가상환경' # 가상 환경 비활성화 conda deactivate # 가상 환경 제거 conda remove -n '내가 만든 가상환경' --all # cmd 강제 종료 "Ctrl(컨트롤) + C" 2023. 2. 6.
[Pandas] index(인덱스) 설정 인덱스 설정 '설정할 데이터프레임'.set_index('기준으로 설정 할 인덱스',inplace=True) # inplace 설정은 현재 데이터에 바로 반영한다는 의미 인덱스 초기화 '설정할 데이터프레임'.reset_index() 2023. 2. 6.
728x90