썸네일 머신러닝 | 수치형 데이터 전처리 (스케일링) | 범주형 데이터 전처리 (인코딩) | StandardScaler, MinMaxScaler | LabelEncoding, OneHotEncoding 1. 수치형 데이터 전처리 ▶ 스케일링(Scaling) : 머신러닝의 학습에 사용되는 서로 다른 단위의 데이터들을 보정해주기 위한 방법 1-1) 표준화 (Standardization) ▶ 표준화 : 각 데이터에 평균을 빼고 표준편차를 나누어 평균을 0, 표준편차를 1로 조정하는 방법 ▶ 수식 ▶ 사용 함수 sklearn.preprocessing.StandardScaler 메소드 fit : 데이터 학습 (평균과 표준편차를 계산) transform : 데이터 스케일링 진행 속성 mean_ : 데이터의 평균 값 scale_ , var_ : 데이터 표준 편차, 분산 값 n_features_in_ : fit 할 때 들어간 변수 개수 feature_names_in_ : fit 할 때 들어간 변수 이름 n_sampl..
썸네일 머신러닝 | 데이터 전처리 | 이상치와 결측치 | 이상치 탐지 기법 (ESD, IQR) | 이상치 처리 방법 | 결측치 삭제, 대치 알고리즘 1. 이상치(Outlier) ▶ 이상치 : 관측된 데이터 범위에서 많이 벗어난 아주 작은 값 혹은 큰 값을 말함 : 이상치는 도메인과 비즈니스 맥락에 따라 그 기준이 달라짐 : 데이터 삭제 시 품질은 좋아질 수 있지만 정보 손실을 동반하기 때문에 이상치 처리에 주의해야 함 : 이상 탐지(Anomaly Detection)라고 해서 데이터의 패턴이 달라진 경우를 포착해 사기탐지나 사이버 보안을 이뤄내는 방법이 있음 1-1) ESD ▶ ESD (Extreme Studentized Deviation) : 데이터가 정규 분포를 따른다고 가정했을 때, 평균에서 표준편차의 3배 이상 떨어진 값 : 모든 데이터가 정규 분포를 따르는 것은 아니기 때문에 다음 상황에서는 제한됨 데이터가 크게 비대칭일 때 (→ Log 변환..