통계학 Khan Academy | 14~16단원 (카이제곱 검정, 회귀분석, 분산분석)

    728x90

     

    1. 14단원 : 범주형 자료의 추론

    1-1. 카이제곱 적합도 검정

    ▶ 카이제곱분포란?

     

    표준정규분포에서 표집해 얻은 숫자를 제곱하는 것

    $Q ~ χ^2{1}$
    • 제곱을 하기 때문에 항상 양수가 됨
    • χ^2 분포의 밑수 1은 자유도를 나타내는 것

    ▶ 피어슨의 카이제곱검정(적합도)

    적합도 검정은 카이제곱검정의 한 유형으로 한 범주형 변수에 대한 분석 방법을 말함

    사전에 알고있던(또는 주장되던) 값이 실제 관측되는 데이터와 일치하는지 검정함

    계산된 값이 임계점의 카이제곱값보다 더 극값이면 귀무가설 기각

    • 임계점의 카이제곱값 확인 (← α 와 자유도(n-1)를 알면 알 수 있음)

     

    1-2. 동질성과 연관성 / 독립성에 대한 카이제곱 검정

    ▶ 독립사건의 빈도표 채우기

    * 비가 오는 것과 어머니가 불평이 많은 것은 독립사건이다.

    * 비가 왔을 때 어머니가 불평이 많으실 확률은
    비에 상관없이 평소 어머니가 불평이 많으실 확률과 같다.

    • P(Mom grouchy | Raining)
    = P(Mom grouchy)
    = 73 / 365 = 0.2 


    따라서
    Grouchy + Raining = 7
    Grouchy + Not Raining = 66 
    Not Grouchy + Raining = 28 
    Not Grouchy + Not Raining = 264

     

    ▶ 카이제곱검정 분할표(Contingency Table)

     범주형 변수에 대한 데이터를 다룰 때 사용

    두 범주형 변수 간에 서로 차이가 있는지 없는지 밝히기 위해서 사용됨

    $χ^2 = \sum^{k}_{i=1} \frac{(f_{i}-e_{i})^2}{e_{i}}$
    • 귀무가설을 가정하고, 귀무가설을 가정했을 때의 기댓값 찾기
    • 그 후 그 기댓값에서 거리의 제곱을 구하고 기댓값으로 정규화하기
    • (관측값 - 기댓값)^2 들의 합을 구하기
    • 계산된 값이 엄청 크면 귀무가설을 기각
      • 분할표에서 자유도(n-1) * (m-1)

     

    2. 15단원 : 회귀 심화

    2-1. 비선형 회귀

    ▶ 산점도에 맞는 이차함수 및 지수함수 고르기

    → 산점도가 직선이 아님
    → 일차함수 관계는 아님
        → 이 산점도만 일차함수 형태를 나타내고 있음
    → 임의의 m과 b에 대해 
    √f = mx + b
    나타낼 수 있음
    → 위 식은 f = (mx + b)^2 를 의미하고, 함수 f의 최고차항이 x^2이기 때문에 이 함수는
    이차함수

    정답 : 위 데이터에 따르면 f(x)는 이차함수이다.

     

    3. 분산분석법

    SST = SSW + SSB

    자유도mn-1

     

    ▶ 총제곱합의 계산

    총제곱합 (SST : Sum of Squares Total)

    • SST = Σ(각 측정점 - 전체 평균)^2
    • 자유도 : (m*n) - 1 
      • m : 각 집합의 수
      • n : 각 집합 내 원소의 수 

     

    ▶ 평균 내 제곱합의 계산

    평균 내 제곱합 (SSW : Sum of Squares Within)

    • SSW = Σ(각 측정점 각 집합의 평균)^2
    • 자유도 : m(n-1)
      • m : 각 집합의 수
      • n : 각 집합 내 원소의 수
    • 전체의 변화량이 각 측정점이 각 집합의 평균에서 얼마나 떨어져 있기 때문인 건지를 보여줌

     

     평균 간 제곱합의 계산

    평균 간 제곱합 (SSB : Sum of Squares Between)

    • SSB = Σ(각 집합의 평균전체 평균)^2
    • 자유도 : m - 1
      • m : 각 집합의 수
    • 전체의 변화량이 각 집합의 평균 간의 차이 때문인 건지를 보여줌

     

    ▶ F-통계량을 사용한 가설검정

    • Ho : μ1= μ2 = μ3

    (1) 귀무가설을 가정하고, F-통계량 계산하기

    • F-통계량은 F-분포를 가지고 있음
      F-분포는 자유도가 다르거나 같은 두 카이제곱 분포비율
      → SSB와 SSW가 모두 카이제곱 분포를 따르고 있고, SSB / SSW 비율이 카이제곱 분포를 따름
    $F-통계량 = \frac{\frac{SSB}{m-1}}{\frac{SSW}{m(n-1)}}$

     

     

    F-통계량이 의미하는 바는,

    • 분자(SSB) > 분모(SSW)
      • 이 자료의 변화량은 대부분 평균 내의 변화량보다 평균 간의 차이 때문이라는 것
        → 실제 모평균에 차이가 있다고 믿을 수 있을 것
        → 귀무가설 기각 가능성 커짐
    • 분자(SSB) < 분모(SSW)
      • 분모가 분자보다 더 커서 수가 작아진다면, 각 표본 내의 변화량이 표본 간 변화량보다 크게 된 것
        → 관찰한 평균 간 차이는 우연이라고 생각할 수 있음
        → 귀무가설을 기각하기 힘듦

    (2) 계산한 F-통계량 결과를 유의수준(+자유도) 임계점의 F-통계량과 비교하기

    • 자유도가 두 개라 (분자의 자유도 + 분모의 자유도) : m(n-1)

    (3) 귀무가설 채택, 기각 결정하기

    728x90

    댓글