썸네일 통계학 Khan Academy | 확률과 통계 4~6단원 (자료분포 모델링, 연구방법론) 1. 4단원 : 자료분포 모델링▶ z-score평균이 표준편차의 몇 배가 떨어져 있는지를 나타냄평균과 해당 값의 간격이 표준편차의 몇 배인지HTML 삽입미리보기할 수 없는 소스 (예시) z = -2.3 : 평균이 표준편차 -2.3만큼 떨어져있음z = 1.5 : 평균이 표준편차 1.5만큼 떨어져있음  ▶ 정규분포와 경험법칙68% - 95% - 99.7% (문제) 역사 시험 점수  ▶ 분포의 이동, 변화중심경향치(평균, 중앙값) 는 상수를 사칙연산(+, -, *, /) 하면 분포가 이동하거나 변함+, - : 분포의 중심경향치가 더하고 뺀 만큼 늘어남 (단, 분포 변화는 없음)*,  / :  분포의 중심경향치가 곱하고 나눈만큼 커지고, 작아짐 (분포 변화 있음)산포도(표준편차, IQR, 범위) 는 상수를 + ..
썸네일 머신러닝 기초 | 지도학습 | k-최근접 이웃 회귀 | 결정계수(R^2) | 과대적합, 과소적합 해결하는 방법 1. k-최근접 이웃 회귀 ▶ k-최근접 이웃 '회귀' : 지도학습 알고리즘은 크게 분류와 회귀로 나뉨 : 회귀는 임의의 데이터를 어느 클래스 중 하나로 분류하는 것이 아니라 어떤 숫자를 예측해내는 것 → 회귀는 정해진 클래스가 없고 임의의 수치를 출력함 : 두 변수 사이의 상관관계를 분석하는 방법 * 농어의 무게를 예측하는 것도 회귀가 됨 : k-최근접 이웃 알고리즘을 사용해 농어의 무게를 예측하는 회귀 문제 ▶ k-최근접 이웃 '분류' : k-최근접 이웃 분류가 잘 나타나 있음 >> k=3(샘플이 3개) 이라 가정하면 사각형이 2개로 다수이기 때문에 새로운 샘플 X의 클래스는 사각형이 됨 ▶ k-최근접 이웃 회귀 실행과정 : 분류처럼 예측하려는 샘플에 가장 가까운 샘플 k를 선택 : 회귀이기 때문에 ..