통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론)

728x90

1. 두 집단 간 차이에 대한 두 개의 표본 추론

1-1. 두 비율 비교하기

▶ 모비율 비교하기

Sampling dist of P1 - P2

P1 - P2 통계량 분포의 평균

$ \mu_{\bar{P_1} - \bar{P_2}} = P1 - P2$

P1 - P2 통계량 분포의 표준편차

$\sigma_{\bar{P_1}-\bar{P_2}} = \sqrt{\frac{P_1(1-P_1)}{n} + \frac{P_2(1-P_2)}{n}}$

신뢰구간
: 해당 구간 안에
실제 평균, 혹은 실제 P1 - P2 값을 추론하는
표본에서 얻은 P1 - P2 값이 어떤 범위 d 안에 있다는 것
- 신뢰구간 95% 의 경우,
  95%의 확률로 비율의 차 P1 - P2의 실제 값이
  표본 비율로부터 ±d (= z값*표본표준편차) 안에 있다는 것

▶ 모비율을 비교하는 가설검정

Ho : P1 - P2 = 0 , P1 = P2
H1 : P1 - P2 ≠ 0 , P1 ≠ P2
- ex. 유의수준 5% 하에서 Ho을 기각할 경우

$P(\bar{P_1} - \bar{P_2} | H_0) < 5% $

P1 - P2 통계량의 표준편차 식
- Ho에서 P1 = P2를 가정하고 있으므로,
  P1 - P2의 표준편차를 구하는 식에 P1과 P2는 하나의 P로 통일되고,
  (모비율(P)을 모른다면) P1 과 P2의 평균을 넣게 됨

$\sigma_{\bar{P_1}-\bar{P_2}} = \sqrt{\frac{2\bar{P}(1-\bar{P})}{n}}$

1-2. 두 평균 비교하기

▶ 실험의 통계적 유의성 판단

자신이 도출한 실험군, 대조군 표본의 차이가 유의미한 결과가 맞는지 확인하기 위해서는
N번의 시행을 통해 무작위로 해당 표본을 섞은 뒤(재임의화) 해당 표본들의 통계량 분포를 확인해보면 됨
이 분포를 보고 실험에서 얻은 실제 결과나 그보다 좋은 결과를 우연히 얻을 확률을 구할 수 있음
이 확률을 미리 정한 한계점(ex. 5%)과 비교한 뒤 처음 도출한 결과가 유의미한지 판단

▶ 실험에 대한 가설검정

▶ 표본평균 차의 분포

두 개의 표본을 추출해 각가의 표본 평균을 계산해 그 차이를 구하면

그 차이가 우연에 의한 것인지 아닌지에 대한 결론을 내릴 수 있음

표본평균 차의 분포에 대한 표본평균을 구하기 위해서는

(1) 먼저 각 모집단으로부터 n, m개의 표본을 임의로 추출하기

임의성(랜덤 샘플링), 정규성(모집단이 정규분포 or 표본개수 >= 30), 독립성(모집단 수의 10% 내로 표집)

(2) 각 표본의 평균 계산하기

이렇게 계산된 표본평균은 확률변수임
이 표본평균은 n개(또는 m개)의 표본으로 구성된 분포(표본분포)의 하나의 표본이 됨

(3) 두 표본 통계량(평균, 분산, 표준편차)의 차를 계산히여 두 표본의 차에 대한 분포 확인

▶ 평균의 차에 대한 신뢰구간 구하기

(1) 두 표본의 차의 실제 평균이 신뢰구간 안에 있을 확률(ex. 95%) 정하기

(2) 표본정규분포표에서 해당 확률(ex. 95%) 면적을 가진 z-값(1.96) 찾기

(참고) z-값이 1.96이라는 말은 평균에서 표준편차의 1.96만큼 떨어져 있다는 말
양측검정인지, 단측검정인지 잘 확인한 뒤 z-값 찾기
- 양측검정 : 귀무가설이 =, 대립가설이 ≠로 이루어진 경우
- 단측검정 : 귀무가설이 ≥ 또는 ≤, 대립가설이 > 또는 <로 이루어진 경우

(3) 표본평균 ± z-값 * 두 표본의 차의 표준편차 계산하기

결과해석1
- 두 표본의 평균 차이는
- (ex.95%)의 확률로
- 분포의 실제 평균의
- ± 분포 표준편차의 (ex.1.96배) 안에 있다고 신뢰할 수 있다
결과해석2
- 실제 평균은
- (ex. 95%)의 확률로
- 두 표본의 평균 차이의
- ± 분포의 표준편차 (ex.1.96배) 안에 있다고 신뢰할 수 있다

▶ 평균의 차에 대한 가설검정

(1) 귀무가설(Ho), 대립가설(H1) 세우기

Ho : μ1 - μ2 = 0 → μ_x̄1 - μ_x̄2 = 0 → μ_(x̄1-x̄2) = 0
H1 : μ1 - μ2 ≠ 0 → μ_x̄1 - μ_x̄2 ≠ 0 → μ_(x̄1-x̄2) ≠ 0

(2) 유의수준(α) 정하기

(3) 귀무가설이 맞다는 가정 하에 이 표본 데이터를 얻을 확률이 얼마인지 알아보기

그 확률이 유의수준(한계점, 임계점, critical value) 이상이면 귀무가설 채택, 이하면 귀무가설 기각
- 분포가 정규분포일 경우, 임계점의 z-값을 찾기

(4) 평균으로부터 떨어진 거리 구하기

(3)번의 z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2)
귀무가설이 참일 때, 두 표본 평균의 차가 [ z값 * 두 표본 차의 표준편차(σ_ x̄1-x̄2) ] 거리 이상(또는 이하)일 확률이 유의수준(5%)이라는 것

(5) 유의수준과 비교

귀무가설이 참이라고 가정할 때, 두 표본평균의 차가 해당 유의수준 이상인면 귀무가설 채택, 이하이면 귀무가설 기각

728x90

저작자표시 비영리 동일조건 (새창열림)

'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글

통계학 Khan Academy \| 14~16단원 (카이제곱 검정, 회귀분석, 분산분석) (0)	2024.08.19
통계학 Khan Academy \| 11~12단원 (신뢰구간, 유의성 검정) (1)	2024.08.05
통계학 Khan Academy \| 9~10단원 (확률변수, 기하변수, 베르누이 분포, 푸아송 분포, 표본분포) (0)	2024.07.31
통계학 Khan Academy \| 7~8단원 (이론적 확률 vs. 통계적 확률, 순열과 조합) (3)	2024.07.22
통계학 Khan Academy \| 확률과 통계 4~6단원 (자료분포 모델링, 연구방법론) (3)	2024.07.15

안나세나 코딩 학습일지

통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론)

1. 두 집단 간 차이에 대한 두 개의 표본 추론

1-1. 두 비율 비교하기

1-2. 두 평균 비교하기

'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글

댓글

티스토리툴바

통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론)

1. 두 집단 간 차이에 대한 두 개의 표본 추론

1-1. 두 비율 비교하기

1-2. 두 평균 비교하기

'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글

관련글

댓글

티스토리툴바