Loading [MathJax]/jax/output/CommonHTML/jax.js

통계학 Khan Academy | 11~12단원 (신뢰구간, 유의성 검정)

728x90

 

1. 11단원

1-1. 신뢰구간이란?

관심있는 모수에 대한 타당한 값의 범위

반복되는 표본에서 이러한 구간들을 장기적으로 포착한 비율

 

▶ 신뢰구간과 오차범위

[구하는 법]

(1) 모집단 전체를 조사할 수가 없으니 

모집단 전체 중 일부 표본을 추출해 (n 만큼 추출)

추출된 표본으로부터 통계량을 계산하고

이를 이용해 알아내고자 하는 것을 계산

(2) 표본통계량의 표본분포 (각 표본으로부터 얻을 수 있는 모든 가능한 표본 통계량들의 분포) 확인하기

  • 표본 통계량의 표본분포표준편차 
σˆp=p(1p)n

(3) (모수를 정확히 알 수 없기 때문에) 한 표본 통계량이 표본 통계량의 표본분포 내에 어느 위치에 있게될지 알 수 없음

  • 구한 표본 통계량이 모집단의 분포에서 표준편차 두 배(2σ) 내에 있을 확률이 95%다.
    표본평균(\bar x)이 표본 통계량의 표본평균(\mu_x) 표준편차의 두 배(2σ) 안에 있을 확률
    • Confident '95%' chance that 표본통계량 is within 표준편차 두 배(2σ) of the 모집단
  • = 모수가 구한 표본 통계량의 표본분포 표준편차 두 배(2σ) 내에 위치할 확률이 95%다
    표본분포의 평균(\mu_x)이 표본분포 표준편차의 두 배 안에 있을 확률
    • Confident '95%' chance that 모수 is within 표준편차 두 배(2σ) of the 표본 통계량
  • 표준편차 두 배(2σ) 값이 무엇인지 알아낼 수 있으면, 신뢰구간을 구하는 게 가능해짐 (but 실제 p는 알 수 없음)
  • 때문에 (2)번의 표본 통계량의 표본분포표준편차 식에서 추정치 p^ 사용
  • 표본비율의 표준오차
SEˆp=ˆp(1ˆp)n

(4) 95%의 유의수준에서 계산한 표본 통계량의 오차 범위를 신뢰구간으로 봄

* 오차 범위 : 표준오차 * 2 (표준오차 두 배 위, 아래의 범위)

  • 오차 범위는 표본을 추출할 때마다 표본 통계량이 바뀌기 때문에 계속 바뀜 
  • 왜냐하면 오차 범위를 계산하는 식 안에 표준오차가 포함되어 있기 때문
  • 그렇기 때문에 이런 과정을 반복하면 각각의 경우마다 다른 신뢰구간이 나오게 되고,
    결국 그 안에 실제 모수가 들어있긴 할 것
  • 95%의 확률로 신뢰구간은 모수를 포함함 
    • 표본 개수 n을 늘릴 수록 신뢰구간의 길이는 감소함
    • 신뢰도를 높인다 → 각 구간에서 모수의 실제 값을 포착하기 쉽다는 뜻 (큰 오차범위, 넓은 구간)

 

1-2. 모비율 추정하기

▶ 유효한 신뢰구간에 필요한 조건

  • 임의성 : 랜덤 샘플링
  • 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
    • 정규분포의 조건을 만족해야 함
      • np^ >= 10 and n(1-p^) >= 10
  • 독립성 : 각각의 관측값이 독립이어야 함
    • 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
    • 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨

▶ 주어진 신뢰 구간에 대한 임계값(z*)

(예시문제) 

전체 94% 면적에 해당하는 z 스코어값을 찾으면 됨

 

▶ p에 대한 신뢰구간 만들고 해석하기

(예시문제)

 

1-3. 모평균 추정하기

▶ t-통계량이란?

ˉx±tsn

 

▶ 유효한 신뢰구간에 필요한 조건

  • 임의성 : 랜덤 샘플링
  • 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
    • 모집단이 정규분포를 따라야 함
    • 표본의 크기가 충분히 커야 함 ( n >= 30 )
      • 중심극한 정리에 의해, n >= 30일 떄 \bar x 의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
  • 독립성 : 각각의 관측값이 독립이어야 함
    • 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
    • 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨
      • 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때
        \bar x 의 표준편차에 대한 공식을 사용할 수 있음
  • \bar x의 표준편차 = \sigma
σˉx=σn

 

  • \bar x의 표준오차 = s_x
    • 보통 모표준편차 \sigma를 모르기 때문에 \sigma의 추정치로써 표본표준편차 s_x로 대체
σˉx=sxn

 

▶ 평균에 대한 t구간 설정하기

ˉX±tsxn

 

(예시문제)

n >= ( 2.58(=z스코어) * 30 / 8 )^2

 

 

2. 12단원

2-1. 유의성 검정의 원리

▶ 단순 가설 검정

확률이 5% 이하면 우연에 의한 것이라고 보기에는 많이 미심쩍다..라고 판단 가능

(예시문제)


 (5 + 24 + 72) / 1000 = 0.101

 

▶ 영가설과 대립가설

귀무가설 : 예상대로 일어난다는 가정, 차이가 없는 가설, 모수가 사람들이 예상하는 값과 동일

(예시문제)

D번, p^이 아닌 모비율 p를 구해야 함

 

▶ p-값과 유의성 검정

(1) 귀무가설, 대립가설 세우기

(2) 유의수준 정하기 (\alpha = 0.01, 0.05, 0.1 등)

(3) 표본 추출하기 ( 표본개수 n, 표본통계량 \bar x, s)

(4) p-value : P(statistic | 귀무가설 true), 귀무가설이 참이라고 주어지면 표본통계량을 구할 수 있는 확률

(5) p-value가 유의수준보다 크면 귀무가설 채택, 작으면 귀무가설 기각

 

(예시문제)

p값 = 0.125 란,
평균값이 17lbs 이고, 표준편차가 1lb인 정규모집단에서
임의로 10개의 표본을 모집하면,
표본의 평균이 16.5lbs 이하일 확률12.5% 정도 된다는 것

 

2-2. 오차확률과 검정력

▶ 1종 오류와 2종 오류

  Ho 참 Ho 거짓
Ho 기각 제 1종 오류 ( α ) 검정력 ( 1- β )
Ho 채택 O 제 2종 오류 ( β )

 

▶ 유의성 검정에서 검정력이란?

- α가 커지면 검정력이 작아짐
- α가 작아지면 검정력이 커짐
하나가 커지면, 다른 하나가 작아짐

α ↑
검정력 ↑
P(제 1종 오류) ↑


n
표본 분포가 좁아지면서
변이성이 낮아지고,
검정력 ↑

 

2-3. 모비율의 검정

▶ 비율의 z-검정에 필요한 조건

  • 임의성 : 임의 표본, 무작위 실험으로 표본 추출
  • 일반성 : p^의 표본 분포는 정규분포를 따라야 함
    • 적어도 성공 횟수(np >= 10)와 실패 횟수(n(1-p) >= 10)가 10이 되어야 함
  • 독립성 : 각 관측값이 독립이어야 함
    • 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨

▶ 비율의 검정에서 z-통계량 계산하기

 

ˆpp0p0(1p0)n

 

▶ 비율의 z-검정에 대한 결론 도출

(예시문제)

왜 타당한 결론이 아닌지..?

 

2-3. 모평균의 검정

▶ 평균의 t-검정에 필요한 조건

  • 임의성 : 임의 표본, 무작위 실험으로 표본 추출
  • 일반성 : 표본평균의 표본 분포는 정규분포를 따라야 함
    • 모집단이 정규 분포를 따르거나 
    • 표본의 크기가 충분히 커야 함 ( n >= 30 )
      • 중심극한 정리에 의해, n >= 30일 떄 표본평균의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
      • n < 30 일 때는 표본 자료를 그래프로 나타내 본 뒤, 그래프의 형태를 바탕으로 일반성 조건에 대한 결정을 내려야 함. (이상치 등으로 인한 큰 왜곡이 없으면 일반성 조건을 만족한다고 판단)
  • 독립성 : 각 관측값이 독립이어야 함
    • 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨
      • 표본의 크기가 10% 이하라면, 관측값을 제거해도 모집단에 큰 영향을 미치지 않기 때문
    • 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때 표본평균의 표준편차에 대한 공식을 사용할 수 있음
      • 보통 모표준편차를 모르기 때문에 표본 표준편차로 대체하게 되고, 이를 표준편차와 구분하기 위해 표본평균의 표준오차라고 부름

▶ 평균의 t-검정에서 P-값 계산하기

 

 

• 정답 : c번

 

t값의 분모에는 σ / 루트 n

 

자유도 df = n-1

 

t분포표를 활용해 계산된 t값에 대한 p-value 확인

(단측 검정 시 해당 값의 *2)

 

이후 해당 p-value와 유의수준 비교해서
가설 채택 또는 기각하기

 

[ t분포표 보는 법 ]
https://math100.tistory.com/43

 

t분포표 보는 법

이전 글에서 t분포는 확률을 구할 때 사용하는 분포가 아니라, 나중에 신뢰구간이랑 가설검정을 할 때 사용하는 분포라고 했었는데, 나중에 신뢰구간이랑 가설검정을 하려면 그래프의 x축 좌표

math100.tistory.com

 

2-4. 유의성 검정 더 알아보기

▶ z-통계랑 vs. t-통계량

 

  • z-통계량
    • 실제 통계량에서 표본평균 통계량을 구한 경우
      표본 정규분포표를 이용해 해당 z-값에 해당하는 확률을 확인할 수 있음
    • 하지만 z-값을 구할 때 모표준편차(σ)모를 수 있음
      이 때는 표본 표준편차(s) 를 사용하게 되는데
    • 표본의 개수 n이 30보다 크면 정규분포를 따르게 되고,
      해당 표본표준편차는 모표준편차의 좋은 추정값이 될 수 있음
      그 결과, 표준정규분포표(z-table)를 이용해 극값을 얻는 확률을 찾을 수 있음
  • t-통계량
    • 하지만
      표본의 개수 n이 30보다 작아지면 정규분포를 따르지 않게 되고, t-분포를 따르게 됨
      t-값을 계산한 뒤 t-분포표를 이용해 극값을 얻는 확률을 찾을 수 있음

 

728x90

댓글