썸네일 머신러닝 | 데이터 분리 | 데이터 훈련 시 과대적합을 피하기 위한 방법 | X_trian, X_test, y_train, y_test 1. 과대적합이란? ▶ 과대적합 : 한 데이터를 과도하게 학습하는 바람에 그 데이터 내의 예측 및 분류 문제만 잘 맞추고, 새로운 데이터를 가져오면 모델이 제대로 예측 또는 분류하지 못하는 현상을 말함 예측 또는 분류를 위해 모형 복잡도를 설정함 모형이 지나치게 복잡하면 → 과대 적합이 될 수 있음 모형이 지나치게 단순하면 → 과소 적합이 될 수 있음 ▶ 과대적합이 되는 이유(원인) 모델의 복잡도가 높은 경우 데이터의 양이 불충분한 경우 학습 반복이 많은 경우 (딥러닝) 데이터 비율이 불균형한 경우 (ex. A : B가 95 : 5인 경우) 2. 과대적합 해결방법 2-1) train / test 데이터로 나누기 ▶ 테스트 데이터의 분리 ▶ train / test 데이터 분리 학습 데이터 (Train Da..
썸네일 머신러닝 기초 | 지도학습 | k-최근접 이웃 회귀 | 결정계수(R^2) | 과대적합, 과소적합 해결하는 방법 1. k-최근접 이웃 회귀 ▶ k-최근접 이웃 '회귀' : 지도학습 알고리즘은 크게 분류와 회귀로 나뉨 : 회귀는 임의의 데이터를 어느 클래스 중 하나로 분류하는 것이 아니라 어떤 숫자를 예측해내는 것 → 회귀는 정해진 클래스가 없고 임의의 수치를 출력함 : 두 변수 사이의 상관관계를 분석하는 방법 * 농어의 무게를 예측하는 것도 회귀가 됨 : k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 회귀 문제 ▶ k-최근접 이웃 '분류' : k-최근접 이웃 분류가 잘 나타나 있음 >> k=3(샘플이 3개) 이라 가정하면 사각형이 2개로 다수이기 때문에 새로운 샘플 X의 클래스는 사각형이 됨 ▶ k-최근접 이웃 회귀 실행과정 : 분류처럼 예측하려는 샘플에 가장 가까운 샘플 k를 선택 : 회귀이기 때문에 ..
썸네일 머신러닝 기초 | 데이터 전처리 | train_test_split 함수 사용법 | 원본 데이터 비율에 맞게 훈련/테스트 데이터 나누는 법 | 표준점수로 기준 맞추는 법 | kneighbors() 메서드(가까운 이웃 찾기) | 산점.. 1. 넘파이로 데이터 준비하기 ▶ 도미와 빙어 데이터 준비 fish_length = [25.4, 26.3, 26.5, 29.0, 29.0, 29.7, 29.7, 30.0, 30.0, 30.7, 31.0, 31.0, 31.5, 32.0, 32.0, 32.0, 33.0, 33.0, 33.5, 33.5, 34.0, 34.0, 34.5, 35.0, 35.0, 35.0, 35.0, 36.0, 36.0, 37.0, 38.5, 38.5, 39.5, 41.0, 41.0, 9.8, 10.5, 10.6, 11.0, 11.2, 11.3, 11.8, 11.8, 12.0, 12.2, 12.4, 13.0, 14.3, 15.0] fish_weight = [242.0, 290.0, 340.0, 363.0, 430.0, 450.0, ..