머신러닝 | 데이터 분리 | 데이터 훈련 시 과대적합을 피하기 위한 방법 | X_trian, X_test, y_train, y_test 1. 과대적합이란? ▶ 과대적합 : 한 데이터를 과도하게 학습하는 바람에 그 데이터 내의 예측 및 분류 문제만 잘 맞추고, 새로운 데이터를 가져오면 모델이 제대로 예측 또는 분류하지 못하는 현상을 말함 예측 또는 분류를 위해 모형 복잡도를 설정함 모형이 지나치게 복잡하면 → 과대 적합이 될 수 있음 모형이 지나치게 단순하면 → 과소 적합이 될 수 있음 ▶ 과대적합이 되는 이유(원인) 모델의 복잡도가 높은 경우 데이터의 양이 불충분한 경우 학습 반복이 많은 경우 (딥러닝) 데이터 비율이 불균형한 경우 (ex. A : B가 95 : 5인 경우) 2. 과대적합 해결방법 2-1) train / test 데이터로 나누기 ▶ 테스트 데이터의 분리 ▶ train / test 데이터 분리 학습 데이터 (Train Da.. 이전 1 다음