728x90
1. 14단원 : 범주형 자료의 추론
1-1. 카이제곱 적합도 검정
▶ 카이제곱분포란?
표준정규분포에서 표집해 얻은 숫자를 제곱하는 것
$Q ~ χ^2{1}$- 제곱을 하기 때문에 항상 양수가 됨
- χ^2 분포의 밑수 1은 자유도를 나타내는 것
▶ 피어슨의 카이제곱검정(적합도)
적합도 검정은 카이제곱검정의 한 유형으로 한 범주형 변수에 대한 분석 방법을 말함
사전에 알고있던(또는 주장되던) 값이 실제 관측되는 데이터와 일치하는지 검정함
계산된 값이 임계점의 카이제곱값보다 더 극값이면 귀무가설 기각
- 임계점의 카이제곱값 확인 (← α 와 자유도(n-1)를 알면 알 수 있음)
1-2. 동질성과 연관성 / 독립성에 대한 카이제곱 검정
▶ 독립사건의 빈도표 채우기
![]() |
* 비가 오는 것과 어머니가 불평이 많은 것은 독립사건이다. * 비가 왔을 때 어머니가 불평이 많으실 확률은 비에 상관없이 평소 어머니가 불평이 많으실 확률과 같다. • P(Mom grouchy | Raining) = P(Mom grouchy) = 73 / 365 = 0.2 따라서 Grouchy + Raining = 7 Grouchy + Not Raining = 66 Not Grouchy + Raining = 28 Not Grouchy + Not Raining = 264 |
▶ 카이제곱검정 분할표(Contingency Table)
두 범주형 변수에 대한 데이터를 다룰 때 사용
두 범주형 변수 간에 서로 차이가 있는지 없는지 밝히기 위해서 사용됨
$χ^2 = \sum^{k}_{i=1} \frac{(f_{i}-e_{i})^2}{e_{i}}$- 귀무가설을 가정하고, 귀무가설을 가정했을 때의 기댓값 찾기
- 그 후 그 기댓값에서 거리의 제곱을 구하고 기댓값으로 정규화하기
- (관측값 - 기댓값)^2 들의 합을 구하기
- 계산된 값이 엄청 크면 귀무가설을 기각
- 분할표에서 자유도는 (n-1) * (m-1)
2. 15단원 : 회귀 심화
2-1. 비선형 회귀
▶ 산점도에 맞는 이차함수 및 지수함수 고르기
![]() |
![]() |
![]() |
![]() |
→ 산점도가 직선이 아님 → 일차함수 관계는 아님 |
→ 이 산점도만 일차함수 형태를 나타내고 있음 → 임의의 m과 b에 대해 √f = mx + b로 나타낼 수 있음 → 위 식은 f = (mx + b)^2 를 의미하고, 함수 f의 최고차항이 x^2이기 때문에 이 함수는 이차함수임 |
정답 : 위 데이터에 따르면 f(x)는 이차함수이다.
3. 분산분석법
SST = SSW + SSB
자유도 : mn-1
▶ 총제곱합의 계산
총제곱합 (SST : Sum of Squares Total)
- SST = Σ(각 측정점 - 전체 평균)^2
- 자유도 : (m*n) - 1
- m : 각 집합의 수
- n : 각 집합 내 원소의 수
▶ 평균 내 제곱합의 계산
평균 내 제곱합 (SSW : Sum of Squares Within)
- SSW = Σ(각 측정점 - 각 집합의 평균)^2
- 자유도 : m(n-1)
- m : 각 집합의 수
- n : 각 집합 내 원소의 수
- 전체의 변화량이 각 측정점이 각 집합의 평균에서 얼마나 떨어져 있기 때문인 건지를 보여줌
▶ 평균 간 제곱합의 계산
평균 간 제곱합 (SSB : Sum of Squares Between)
- SSB = Σ(각 집합의 평균 - 전체 평균)^2
- 자유도 : m - 1
- m : 각 집합의 수
- 전체의 변화량이 각 집합의 평균 간의 차이 때문인 건지를 보여줌
▶ F-통계량을 사용한 가설검정
- Ho : μ1= μ2 = μ3
(1) 귀무가설을 가정하고, F-통계량 계산하기
- F-통계량은 F-분포를 가지고 있음
F-분포는 자유도가 다르거나 같은 두 카이제곱 분포의 비율
→ SSB와 SSW가 모두 카이제곱 분포를 따르고 있고, SSB / SSW 비율이 카이제곱 분포를 따름
F-통계량이 의미하는 바는,
- 분자(SSB) > 분모(SSW)
- 이 자료의 변화량은 대부분 평균 내의 변화량보다 평균 간의 차이 때문이라는 것
→ 실제 모평균에 차이가 있다고 믿을 수 있을 것
→ 귀무가설 기각 가능성 커짐
- 이 자료의 변화량은 대부분 평균 내의 변화량보다 평균 간의 차이 때문이라는 것
- 분자(SSB) < 분모(SSW)
- 분모가 분자보다 더 커서 수가 작아진다면, 각 표본 내의 변화량이 표본 간 변화량보다 크게 된 것
→ 관찰한 평균 간 차이는 우연이라고 생각할 수 있음
→ 귀무가설을 기각하기 힘듦
- 분모가 분자보다 더 커서 수가 작아진다면, 각 표본 내의 변화량이 표본 간 변화량보다 크게 된 것
(2) 계산한 F-통계량 결과를 유의수준(+자유도) 임계점의 F-통계량과 비교하기
- 자유도가 두 개라 (분자의 자유도 + 분모의 자유도) : m(n-1)
(3) 귀무가설 채택, 기각 결정하기
728x90
'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글
통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론) (0) | 2024.08.12 |
---|---|
통계학 Khan Academy | 11~12단원 (신뢰구간, 유의성 검정) (1) | 2024.08.05 |
통계학 Khan Academy | 9~10단원 (확률변수, 기하변수, 베르누이 분포, 푸아송 분포, 표본분포) (0) | 2024.07.31 |
통계학 Khan Academy | 7~8단원 (이론적 확률 vs. 통계적 확률, 순열과 조합) (3) | 2024.07.22 |
통계학 Khan Academy | 확률과 통계 4~6단원 (자료분포 모델링, 연구방법론) (3) | 2024.07.15 |
댓글