본문 바로가기

데이터분석43

[Python] code formater, 코드 정리 라이브러리 Black 터미널에서 활용 pip install black # 설치 black --check [main.py] # 포맷팅이 필요한지 체크 black [main.py] # 포맷팅 실행 2023. 7. 7.
[Pandas] 'utf-8' codec can't decode byte 0xc4 in position 7239: invalid continuation byte import pandas as pd pd.read_csv(encoding='ISO-8859-1') encoding 파라미터를 추가하자. 2023. 6. 30.
[Pandas] Dataframe groupby 데이터 전처리를 하면서 raw data를 한 번에 가져와서 전처리 하기 보다는, 쿼리든 함수든 한 번 필터링이 가능 하다면 속도와 효율성에서 큰 효과를 얻을 수 있다. from sklearn import datasets import pandas as pd # 샘플파일 iris = datasets.load_iris() df_iris = pd.DataFrame(data=iris.data,columns=iris.feature_names) df_iris['label'] = iris.target groupby("특정컬럼이름").연산함수() # groupby df_iris.groupby("label").sum() 2023. 6. 25.
[Pyspark] pipeline() - kmeans sample code 1. 필요 라이브러리 from pyspark.ml import Pipeline from pyspark.ml.feature import VectorAssembler, StandardScaler from pyspark.ml.clustering import KMeans 2. 파이프라인에 담을 모델 생성 * outputCol은 다음 모델의 inputCol로 연결되어야한다. vector_assembler = VectorAssembler(inputCols=df.columns, outputCol="features") standard_scaler = StandardScaler(inputCol="features", outputCol="features_scaled") kmeans = KMeans(k=3, featuresC.. 2023. 6. 16.
[Python] import time, 시간 측정 import time start = time.time() "측정하고자 하는 코드" end = time.time() print(end - start) 2023. 6. 16.
[Python] pip error 처리 pip 재설치 python -m ensurepip --upgrade pip 업그레이드 python -m pip install --upgrade pip 2023. 5. 26.
728x90