통계학 Khan Academy | 11~12단원 (신뢰구간, 유의성 검정)

    728x90

     

    1. 11단원

    1-1. 신뢰구간이란?

    관심있는 모수에 대한 타당한 값의 범위

    반복되는 표본에서 이러한 구간들을 장기적으로 포착한 비율

     

    ▶ 신뢰구간과 오차범위

    [구하는 법]

    (1) 모집단 전체를 조사할 수가 없으니 

    모집단 전체 중 일부 표본을 추출해 (n 만큼 추출)

    추출된 표본으로부터 통계량을 계산하고

    이를 이용해 알아내고자 하는 것을 계산

    (2) 표본통계량의 표본분포 (각 표본으로부터 얻을 수 있는 모든 가능한 표본 통계량들의 분포) 확인하기

    • 표본 통계량의 표본분포표준편차 
    $\sigma_{\hat p} = \sqrt{\frac{p(1-p)}{n}}$

    (3) (모수를 정확히 알 수 없기 때문에) 한 표본 통계량이 표본 통계량의 표본분포 내에 어느 위치에 있게될지 알 수 없음

    • 구한 표본 통계량이 모집단의 분포에서 표준편차 두 배(2σ) 내에 있을 확률이 95%다.
      표본평균(\bar x)이 표본 통계량의 표본평균(\mu_x) 표준편차의 두 배(2σ) 안에 있을 확률
      • Confident '95%' chance that 표본통계량 is within 표준편차 두 배(2σ) of the 모집단
    • = 모수가 구한 표본 통계량의 표본분포 표준편차 두 배(2σ) 내에 위치할 확률이 95%다
      표본분포의 평균(\mu_x)이 표본분포 표준편차의 두 배 안에 있을 확률
      • Confident '95%' chance that 모수 is within 표준편차 두 배(2σ) of the 표본 통계량
    • 표준편차 두 배(2σ) 값이 무엇인지 알아낼 수 있으면, 신뢰구간을 구하는 게 가능해짐 (but 실제 p는 알 수 없음)
    • 때문에 (2)번의 표본 통계량의 표본분포표준편차 식에서 추정치 p^ 사용
    • 표본비율의 표준오차
    $SE_\hat p = \sqrt{\frac{\hat p(1-\hat p)}{n}}$

    (4) 95%의 유의수준에서 계산한 표본 통계량의 오차 범위를 신뢰구간으로 봄

    * 오차 범위 : 표준오차 * 2 (표준오차 두 배 위, 아래의 범위)

    • 오차 범위는 표본을 추출할 때마다 표본 통계량이 바뀌기 때문에 계속 바뀜 
    • 왜냐하면 오차 범위를 계산하는 식 안에 표준오차가 포함되어 있기 때문
    • 그렇기 때문에 이런 과정을 반복하면 각각의 경우마다 다른 신뢰구간이 나오게 되고,
      결국 그 안에 실제 모수가 들어있긴 할 것
    • 95%의 확률로 신뢰구간은 모수를 포함함 
      • 표본 개수 n을 늘릴 수록 신뢰구간의 길이는 감소함
      • 신뢰도를 높인다 → 각 구간에서 모수의 실제 값을 포착하기 쉽다는 뜻 (큰 오차범위, 넓은 구간)

     

    1-2. 모비율 추정하기

    ▶ 유효한 신뢰구간에 필요한 조건

    • 임의성 : 랜덤 샘플링
    • 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
      • 정규분포의 조건을 만족해야 함
        • np^ >= 10 and n(1-p^) >= 10
    • 독립성 : 각각의 관측값이 독립이어야 함
      • 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
      • 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨

    ▶ 주어진 신뢰 구간에 대한 임계값(z*)

    (예시문제) 

    전체 94% 면적에 해당하는 z 스코어값을 찾으면 됨

     

    ▶ p에 대한 신뢰구간 만들고 해석하기

    (예시문제)

     

    1-3. 모평균 추정하기

    ▶ t-통계량이란?

    $\bar x ± t* \frac{s}{\sqrt{n}}$

     

    ▶ 유효한 신뢰구간에 필요한 조건

    • 임의성 : 랜덤 샘플링
    • 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
      • 모집단이 정규분포를 따라야 함
      • 표본의 크기가 충분히 커야 함 ( n >= 30 )
        • 중심극한 정리에 의해, n >= 30일 떄 \bar x 의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
    • 독립성 : 각각의 관측값이 독립이어야 함
      • 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
      • 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨
        • 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때
          \bar x 의 표준편차에 대한 공식을 사용할 수 있음
    • \bar x의 표준편차 = \sigma
    $\sigma_{\bar x} = \frac{\sigma}{\sqrt{n}}$

     

    • \bar x의 표준오차 = s_x
      • 보통 모표준편차 \sigma를 모르기 때문에 \sigma의 추정치로써 표본표준편차 s_x로 대체
    $\sigma_{\bar x} = \frac{s_x}{\sqrt{n}}$

     

    ▶ 평균에 대한 t구간 설정하기

    $\bar X ± t* \frac{s_x}{\sqrt{n}} $

     

    (예시문제)

    n >= ( 2.58(=z스코어) * 30 / 8 )^2

     

     

    2. 12단원

    2-1. 유의성 검정의 원리

    ▶ 단순 가설 검정

    확률이 5% 이하면 우연에 의한 것이라고 보기에는 많이 미심쩍다..라고 판단 가능

    (예시문제)


     (5 + 24 + 72) / 1000 = 0.101

     

    ▶ 영가설과 대립가설

    귀무가설 : 예상대로 일어난다는 가정, 차이가 없는 가설, 모수가 사람들이 예상하는 값과 동일

    (예시문제)

    D번, p^이 아닌 모비율 p를 구해야 함

     

    ▶ p-값과 유의성 검정

    (1) 귀무가설, 대립가설 세우기

    (2) 유의수준 정하기 (\alpha = 0.01, 0.05, 0.1 등)

    (3) 표본 추출하기 ( 표본개수 n, 표본통계량 \bar x, s)

    (4) p-value : P(statistic | 귀무가설 true), 귀무가설이 참이라고 주어지면 표본통계량을 구할 수 있는 확률

    (5) p-value가 유의수준보다 크면 귀무가설 채택, 작으면 귀무가설 기각

     

    (예시문제)

    p값 = 0.125 란,
    평균값이 17lbs 이고, 표준편차가 1lb인 정규모집단에서
    임의로 10개의 표본을 모집하면,
    표본의 평균이 16.5lbs 이하일 확률12.5% 정도 된다는 것

     

    2-2. 오차확률과 검정력

    ▶ 1종 오류와 2종 오류

      Ho 참 Ho 거짓
    Ho 기각 제 1종 오류 ( α ) 검정력 ( 1- β )
    Ho 채택 O 제 2종 오류 ( β )

     

    ▶ 유의성 검정에서 검정력이란?

    - α가 커지면 검정력이 작아짐
    - α가 작아지면 검정력이 커짐
    하나가 커지면, 다른 하나가 작아짐

    α ↑
    검정력 ↑
    P(제 1종 오류) ↑


    n
    표본 분포가 좁아지면서
    변이성이 낮아지고,
    검정력 ↑

     

    2-3. 모비율의 검정

    ▶ 비율의 z-검정에 필요한 조건

    • 임의성 : 임의 표본, 무작위 실험으로 표본 추출
    • 일반성 : p^의 표본 분포는 정규분포를 따라야 함
      • 적어도 성공 횟수(np >= 10)와 실패 횟수(n(1-p) >= 10)가 10이 되어야 함
    • 독립성 : 각 관측값이 독립이어야 함
      • 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨

    ▶ 비율의 검정에서 z-통계량 계산하기

     

    $\frac{\hat{p}-p_0}{\sqrt{\frac{p_0 (1-p_0)}{n}}}$

     

    ▶ 비율의 z-검정에 대한 결론 도출

    (예시문제)

    왜 타당한 결론이 아닌지..?

     

    2-3. 모평균의 검정

    ▶ 평균의 t-검정에 필요한 조건

    • 임의성 : 임의 표본, 무작위 실험으로 표본 추출
    • 일반성 : 표본평균의 표본 분포는 정규분포를 따라야 함
      • 모집단이 정규 분포를 따르거나 
      • 표본의 크기가 충분히 커야 함 ( n >= 30 )
        • 중심극한 정리에 의해, n >= 30일 떄 표본평균의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
        • n < 30 일 때는 표본 자료를 그래프로 나타내 본 뒤, 그래프의 형태를 바탕으로 일반성 조건에 대한 결정을 내려야 함. (이상치 등으로 인한 큰 왜곡이 없으면 일반성 조건을 만족한다고 판단)
    • 독립성 : 각 관측값이 독립이어야 함
      • 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨
        • 표본의 크기가 10% 이하라면, 관측값을 제거해도 모집단에 큰 영향을 미치지 않기 때문
      • 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때 표본평균의 표준편차에 대한 공식을 사용할 수 있음
        • 보통 모표준편차를 모르기 때문에 표본 표준편차로 대체하게 되고, 이를 표준편차와 구분하기 위해 표본평균의 표준오차라고 부름

    ▶ 평균의 t-검정에서 P-값 계산하기

     

     

    • 정답 : c번

     

    t값의 분모에는 σ / 루트 n

     

    자유도 df = n-1

     

    t분포표를 활용해 계산된 t값에 대한 p-value 확인

    (단측 검정 시 해당 값의 *2)

     

    이후 해당 p-value와 유의수준 비교해서
    가설 채택 또는 기각하기

     

    [ t분포표 보는 법 ]
    https://math100.tistory.com/43

     

    t분포표 보는 법

    이전 글에서 t분포는 확률을 구할 때 사용하는 분포가 아니라, 나중에 신뢰구간이랑 가설검정을 할 때 사용하는 분포라고 했었는데, 나중에 신뢰구간이랑 가설검정을 하려면 그래프의 x축 좌표

    math100.tistory.com

     

    2-4. 유의성 검정 더 알아보기

    ▶ z-통계랑 vs. t-통계량

     

    • z-통계량
      • 실제 통계량에서 표본평균 통계량을 구한 경우
        표본 정규분포표를 이용해 해당 z-값에 해당하는 확률을 확인할 수 있음
      • 하지만 z-값을 구할 때 모표준편차(σ)모를 수 있음
        이 때는 표본 표준편차(s) 를 사용하게 되는데
      • 표본의 개수 n이 30보다 크면 정규분포를 따르게 되고,
        해당 표본표준편차는 모표준편차의 좋은 추정값이 될 수 있음
        그 결과, 표준정규분포표(z-table)를 이용해 극값을 얻는 확률을 찾을 수 있음
    • t-통계량
      • 하지만
        표본의 개수 n이 30보다 작아지면 정규분포를 따르지 않게 되고, t-분포를 따르게 됨
        t-값을 계산한 뒤 t-분포표를 이용해 극값을 얻는 확률을 찾을 수 있음

     

    728x90

    댓글