Processing math: 0%

통계학 Khan Academy | 14~16단원 (카이제곱 검정, 회귀분석, 분산분석)

728x90

 

1. 14단원 : 범주형 자료의 추론

1-1. 카이제곱 적합도 검정

▶ 카이제곱분포란?

 

표준정규분포에서 표집해 얻은 숫자를 제곱하는 것

Q ~ χ^2{1}
  • 제곱을 하기 때문에 항상 양수가 됨
  • χ^2 분포의 밑수 1은 자유도를 나타내는 것

▶ 피어슨의 카이제곱검정(적합도)

적합도 검정은 카이제곱검정의 한 유형으로 한 범주형 변수에 대한 분석 방법을 말함

사전에 알고있던(또는 주장되던) 값이 실제 관측되는 데이터와 일치하는지 검정함

계산된 값이 임계점의 카이제곱값보다 더 극값이면 귀무가설 기각

  • 임계점의 카이제곱값 확인 (← α 와 자유도(n-1)를 알면 알 수 있음)

 

1-2. 동질성과 연관성 / 독립성에 대한 카이제곱 검정

▶ 독립사건의 빈도표 채우기

* 비가 오는 것과 어머니가 불평이 많은 것은 독립사건이다.

* 비가 왔을 때 어머니가 불평이 많으실 확률은
비에 상관없이 평소 어머니가 불평이 많으실 확률과 같다.

• P(Mom grouchy | Raining)
= P(Mom grouchy)
= 73 / 365 = 0.2 


따라서
Grouchy + Raining = 7
Grouchy + Not Raining = 66 
Not Grouchy + Raining = 28 
Not Grouchy + Not Raining = 264

 

▶ 카이제곱검정 분할표(Contingency Table)

 범주형 변수에 대한 데이터를 다룰 때 사용

두 범주형 변수 간에 서로 차이가 있는지 없는지 밝히기 위해서 사용됨

χ^2 = \sum^{k}_{i=1} \frac{(f_{i}-e_{i})^2}{e_{i}}
  • 귀무가설을 가정하고, 귀무가설을 가정했을 때의 기댓값 찾기
  • 그 후 그 기댓값에서 거리의 제곱을 구하고 기댓값으로 정규화하기
  • (관측값 - 기댓값)^2 들의 합을 구하기
  • 계산된 값이 엄청 크면 귀무가설을 기각
    • 분할표에서 자유도(n-1) * (m-1)

 

2. 15단원 : 회귀 심화

2-1. 비선형 회귀

▶ 산점도에 맞는 이차함수 및 지수함수 고르기

→ 산점도가 직선이 아님
→ 일차함수 관계는 아님
    → 이 산점도만 일차함수 형태를 나타내고 있음
→ 임의의 m과 b에 대해 
√f = mx + b
나타낼 수 있음
→ 위 식은 f = (mx + b)^2 를 의미하고, 함수 f의 최고차항이 x^2이기 때문에 이 함수는
이차함수

정답 : 위 데이터에 따르면 f(x)는 이차함수이다.

 

3. 분산분석법

SST = SSW + SSB

자유도mn-1

 

▶ 총제곱합의 계산

총제곱합 (SST : Sum of Squares Total)

  • SST = Σ(각 측정점 - 전체 평균)^2
  • 자유도 : (m*n) - 1 
    • m : 각 집합의 수
    • n : 각 집합 내 원소의 수 

 

▶ 평균 내 제곱합의 계산

평균 내 제곱합 (SSW : Sum of Squares Within)

  • SSW = Σ(각 측정점 각 집합의 평균)^2
  • 자유도 : m(n-1)
    • m : 각 집합의 수
    • n : 각 집합 내 원소의 수
  • 전체의 변화량이 각 측정점이 각 집합의 평균에서 얼마나 떨어져 있기 때문인 건지를 보여줌

 

 평균 간 제곱합의 계산

평균 간 제곱합 (SSB : Sum of Squares Between)

  • SSB = Σ(각 집합의 평균전체 평균)^2
  • 자유도 : m - 1
    • m : 각 집합의 수
  • 전체의 변화량이 각 집합의 평균 간의 차이 때문인 건지를 보여줌

 

▶ F-통계량을 사용한 가설검정

  • Ho : μ1= μ2 = μ3

(1) 귀무가설을 가정하고, F-통계량 계산하기

  • F-통계량은 F-분포를 가지고 있음
    F-분포는 자유도가 다르거나 같은 두 카이제곱 분포비율
    → SSB와 SSW가 모두 카이제곱 분포를 따르고 있고, SSB / SSW 비율이 카이제곱 분포를 따름
F-통계량 = \frac{\frac{SSB}{m-1}}{\frac{SSW}{m(n-1)}}

 

 

F-통계량이 의미하는 바는,

  • 분자(SSB) > 분모(SSW)
    • 이 자료의 변화량은 대부분 평균 내의 변화량보다 평균 간의 차이 때문이라는 것
      → 실제 모평균에 차이가 있다고 믿을 수 있을 것
      → 귀무가설 기각 가능성 커짐
  • 분자(SSB) < 분모(SSW)
    • 분모가 분자보다 더 커서 수가 작아진다면, 각 표본 내의 변화량이 표본 간 변화량보다 크게 된 것
      → 관찰한 평균 간 차이는 우연이라고 생각할 수 있음
      → 귀무가설을 기각하기 힘듦

(2) 계산한 F-통계량 결과를 유의수준(+자유도) 임계점의 F-통계량과 비교하기

  • 자유도가 두 개라 (분자의 자유도 + 분모의 자유도) : m(n-1)

(3) 귀무가설 채택, 기각 결정하기

728x90

댓글