통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론)

    728x90

     

    1. 두 집단 간 차이에 대한 두 개의 표본 추론

    1-1. 두 비율 비교하기

    ▶ 모비율 비교하기

    Sampling dist of P1 - P2

    • P1 - P2 통계량 분포의 평균
    $ \mu_{\bar{P_1} - \bar{P_2}} = P1 - P2$

     

    • P1 - P2 통계량 분포의 표준편차
    $\sigma_{\bar{P_1}-\bar{P_2}} = \sqrt{\frac{P_1(1-P_1)}{n} + \frac{P_2(1-P_2)}{n}}$

     

    • 신뢰구간
      : 해당 구간 안에
      실제 평균, 혹은 실제 P1 - P2 값을 추론하는
      표본에서 얻은 P1 - P2 값이 어떤 범위 d 안에 있다는 것

      • 신뢰구간 95% 의 경우,
        95%의 확률로 비율의 차 P1 - P2의 실제 값이 
        표본 비율로부터 ±d (= z값*표본표준편차) 안에 있다는 것

     

    ▶ 모비율을 비교하는 가설검정

    • Ho : P1 - P2 = 0 , P1 = P2
    • H1 : P1 - P2 ≠ 0 , P1 ≠ P2
      • ex. 유의수준 5% 하에서 Ho을 기각할 경우
    $P(\bar{P_1} - \bar{P_2} | H_0) < 5% $

     

    • P1 - P2 통계량의 표준편차 식
      • Ho에서 P1 = P2를 가정하고 있으므로,
        P1 - P2의 표준편차를 구하는 식에 P1과 P2는 하나의 P로 통일되고,
        (모비율(P)을 모른다면) P1 과 P2의 평균을 넣게 됨
    $\sigma_{\bar{P_1}-\bar{P_2}} = \sqrt{\frac{2\bar{P}(1-\bar{P})}{n}}$

     

     

    1-2. 두 평균 비교하기

    ▶ 실험의 통계적 유의성 판단

    • 자신이 도출한 실험군, 대조군 표본의 차이가 유의미한 결과가 맞는지 확인하기 위해서는
      N번의 시행을 통해 무작위로 해당 표본을 섞은 뒤(재임의화) 해당 표본들의 통계량 분포를 확인해보면 됨
    • 이 분포를 보고 실험에서 얻은 실제 결과나 그보다 좋은 결과를 우연히 얻을 확률을 구할 수 있음
    • 이 확률을 미리 정한 한계점(ex. 5%)과 비교한 뒤 처음 도출한 결과가 유의미한지 판단

     

    ▶ 실험에 대한 가설검정

    정답 : (23+7+3)/1000 = 0.033, A번

     

     

    ▶ 표본평균 차의 분포

    두 개의 표본을 추출해 각가의 표본 평균을 계산해 그 차이를 구하면 

    그 차이가 우연에 의한 것인지 아닌지에 대한 결론을 내릴 수 있음 

     

    표본평균 차의 분포에 대한 표본평균을 구하기 위해서는 

    (1) 먼저 각 모집단으로부터  n, m개의 표본을 임의로 추출하기

    • 임의성(랜덤 샘플링), 정규성(모집단이 정규분포 or 표본개수 >= 30), 독립성(모집단 수의 10% 내로 표집)

    (2) 각 표본의 평균 계산하기

    • 이렇게 계산된 표본평균은 확률변수임  
    • 이 표본평균은 n개(또는 m개)의 표본으로 구성된 분포(표본분포)의 하나의 표본이 됨

    (3) 두 표본 통계량(평균, 분산, 표준편차)의 차를 계산히여 두 표본의 차에 대한 분포 확인

     

    ▶ 평균의 차에 대한 신뢰구간 구하기

    (1) 두 표본의 차의 실제 평균이 신뢰구간 안에 있을 확률(ex. 95%) 정하기

    (2) 표본정규분포표에서 해당 확률(ex. 95%) 면적을 가진 z-값(1.96) 찾기

    • (참고) z-값이 1.96이라는 말은 평균에서 표준편차의 1.96만큼 떨어져 있다는 말 
    • 양측검정인지, 단측검정인지 잘 확인한 뒤 z-값 찾기
      • 양측검정 : 귀무가설이 =, 대립가설이 ≠로 이루어진 경우
      • 단측검정 : 귀무가설이 ≥  또는 ≤, 대립가설이 > 또는 <로 이루어진 경우

    (3) 표본평균  ± z-값 * 두 표본의 차의 표준편차 계산하기

    • 결과해석1
      • 두 표본의 평균 차이는
      • (ex.95%)의 확률로
      • 분포의 실제 평균의
      • ± 분포 표준편차의  (ex.1.96배) 안에 있다고 신뢰할 수 있다
    • 결과해석2
      • 실제 평균은 
      • (ex. 95%)의 확률로
      • 두 표본의 평균 차이의
      • ± 분포의 표준편차 (ex.1.96배) 안에 있다고 신뢰할 수 있다

     

    ▶ 평균의 차에 대한 가설검정

    (1) 귀무가설(Ho), 대립가설(H1) 세우기

    • Ho : μ1 - μ2 = 0  →  μ_x̄1 - μ_x̄2 = 0  →  μ_(x̄1-x̄2) = 0
    • H1 : μ1 - μ2 ≠ 0  →  μ_x̄1 - μ_x̄2 0  →  μ_(x̄1-x̄2)

    (2) 유의수준(α) 정하기

    (3) 귀무가설이 맞다는 가정 하에 이 표본 데이터를 얻을 확률이 얼마인지 알아보기

    • 그 확률이 유의수준(한계점, 임계점, critical value) 이상이면 귀무가설 채택, 이하면 귀무가설 기각 
      • 분포가 정규분포일 경우, 임계점의 z-값을 찾기

    (4) 평균으로부터 떨어진 거리 구하기

      • (3)번의 z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2)
      • 귀무가설이 참일 때, 두 표본 평균의 차가 [ z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2) ] 거리 이상(또는 이하)확률유의수준(5%)이라는 것

    (5) 유의수준과 비교

    귀무가설이 참이라고 가정할 때, 두 표본평균의 차가 해당 유의수준 이상인면 귀무가설 채택, 이하이면 귀무가설 기각

    728x90

    댓글