728x90
1. 두 집단 간 차이에 대한 두 개의 표본 추론
1-1. 두 비율 비교하기
▶ 모비율 비교하기
Sampling dist of P1 - P2
- P1 - P2 통계량 분포의 평균
- P1 - P2 통계량 분포의 표준편차
- 신뢰구간
: 해당 구간 안에
실제 평균, 혹은 실제 P1 - P2 값을 추론하는
표본에서 얻은 P1 - P2 값이 어떤 범위 d 안에 있다는 것
- 신뢰구간 95% 의 경우,
95%의 확률로 비율의 차 P1 - P2의 실제 값이
표본 비율로부터 ±d (= z값*표본표준편차) 안에 있다는 것
- 신뢰구간 95% 의 경우,
▶ 모비율을 비교하는 가설검정
- Ho : P1 - P2 = 0 , P1 = P2
- H1 : P1 - P2 ≠ 0 , P1 ≠ P2
- ex. 유의수준 5% 하에서 Ho을 기각할 경우
- P1 - P2 통계량의 표준편차 식
- Ho에서 P1 = P2를 가정하고 있으므로,
P1 - P2의 표준편차를 구하는 식에 P1과 P2는 하나의 P로 통일되고,
(모비율(P)을 모른다면) P1 과 P2의 평균을 넣게 됨
- Ho에서 P1 = P2를 가정하고 있으므로,
1-2. 두 평균 비교하기
▶ 실험의 통계적 유의성 판단
- 자신이 도출한 실험군, 대조군 표본의 차이가 유의미한 결과가 맞는지 확인하기 위해서는
N번의 시행을 통해 무작위로 해당 표본을 섞은 뒤(재임의화) 해당 표본들의 통계량 분포를 확인해보면 됨 - 이 분포를 보고 실험에서 얻은 실제 결과나 그보다 좋은 결과를 우연히 얻을 확률을 구할 수 있음
- 이 확률을 미리 정한 한계점(ex. 5%)과 비교한 뒤 처음 도출한 결과가 유의미한지 판단
▶ 실험에 대한 가설검정
▶ 표본평균 차의 분포
두 개의 표본을 추출해 각가의 표본 평균을 계산해 그 차이를 구하면
그 차이가 우연에 의한 것인지 아닌지에 대한 결론을 내릴 수 있음
표본평균 차의 분포에 대한 표본평균을 구하기 위해서는
(1) 먼저 각 모집단으로부터 n, m개의 표본을 임의로 추출하기
- 임의성(랜덤 샘플링), 정규성(모집단이 정규분포 or 표본개수 >= 30), 독립성(모집단 수의 10% 내로 표집)
(2) 각 표본의 평균 계산하기
- 이렇게 계산된 표본평균은 확률변수임
- 이 표본평균은 n개(또는 m개)의 표본으로 구성된 분포(표본분포)의 하나의 표본이 됨
(3) 두 표본 통계량(평균, 분산, 표준편차)의 차를 계산히여 두 표본의 차에 대한 분포 확인
▶ 평균의 차에 대한 신뢰구간 구하기
(1) 두 표본의 차의 실제 평균이 신뢰구간 안에 있을 확률(ex. 95%) 정하기
(2) 표본정규분포표에서 해당 확률(ex. 95%) 면적을 가진 z-값(1.96) 찾기
- (참고) z-값이 1.96이라는 말은 평균에서 표준편차의 1.96만큼 떨어져 있다는 말
- 양측검정인지, 단측검정인지 잘 확인한 뒤 z-값 찾기
- 양측검정 : 귀무가설이 =, 대립가설이 ≠로 이루어진 경우
- 단측검정 : 귀무가설이 ≥ 또는 ≤, 대립가설이 > 또는 <로 이루어진 경우
(3) 표본평균 ± z-값 * 두 표본의 차의 표준편차 계산하기
- 결과해석1
- 두 표본의 평균 차이는
- (ex.95%)의 확률로
- 분포의 실제 평균의
- ± 분포 표준편차의 (ex.1.96배) 안에 있다고 신뢰할 수 있다
- 결과해석2
- 실제 평균은
- (ex. 95%)의 확률로
- 두 표본의 평균 차이의
- ± 분포의 표준편차 (ex.1.96배) 안에 있다고 신뢰할 수 있다
▶ 평균의 차에 대한 가설검정
(1) 귀무가설(Ho), 대립가설(H1) 세우기
- Ho : μ1 - μ2 = 0 → μ_x̄1 - μ_x̄2 = 0 → μ_(x̄1-x̄2) = 0
- H1 : μ1 - μ2 ≠ 0 → μ_x̄1 - μ_x̄2 ≠ 0 → μ_(x̄1-x̄2) ≠ 0
(2) 유의수준(α) 정하기
(3) 귀무가설이 맞다는 가정 하에 이 표본 데이터를 얻을 확률이 얼마인지 알아보기
- 그 확률이 유의수준(한계점, 임계점, critical value) 이상이면 귀무가설 채택, 이하면 귀무가설 기각
- 분포가 정규분포일 경우, 임계점의 z-값을 찾기
(4) 평균으로부터 떨어진 거리 구하기
- (3)번의 z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2)
- 귀무가설이 참일 때, 두 표본 평균의 차가 [ z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2) ] 거리 이상(또는 이하)일 확률이 유의수준(5%)이라는 것
(5) 유의수준과 비교
귀무가설이 참이라고 가정할 때, 두 표본평균의 차가 해당 유의수준 이상인면 귀무가설 채택, 이하이면 귀무가설 기각
728x90
'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글
통계학 Khan Academy | 14~16단원 (카이제곱 검정, 회귀분석, 분산분석) (0) | 2024.08.19 |
---|---|
통계학 Khan Academy | 11~12단원 (신뢰구간, 유의성 검정) (1) | 2024.08.05 |
통계학 Khan Academy | 9~10단원 (확률변수, 기하변수, 베르누이 분포, 푸아송 분포, 표본분포) (0) | 2024.07.31 |
통계학 Khan Academy | 7~8단원 (이론적 확률 vs. 통계적 확률, 순열과 조합) (3) | 2024.07.22 |
통계학 Khan Academy | 확률과 통계 4~6단원 (자료분포 모델링, 연구방법론) (3) | 2024.07.15 |
댓글