
1. 11단원
1-1. 신뢰구간이란?
관심있는 모수에 대한 타당한 값의 범위
반복되는 표본에서 이러한 구간들을 장기적으로 포착한 비율
▶ 신뢰구간과 오차범위
[구하는 법]
(1) 모집단 전체를 조사할 수가 없으니
모집단 전체 중 일부 표본을 추출해 (n 만큼 추출)
추출된 표본으로부터 통계량을 계산하고
이를 이용해 알아내고자 하는 것을 계산
(2) 표본통계량의 표본분포 (각 표본으로부터 얻을 수 있는 모든 가능한 표본 통계량들의 분포) 확인하기
- 표본 통계량의 표본분포의 표준편차
(3) (모수를 정확히 알 수 없기 때문에) 한 표본 통계량이 표본 통계량의 표본분포 내에 어느 위치에 있게될지 알 수 없음
- 구한 표본 통계량이 모집단의 분포에서 표준편차 두 배(2σ) 내에 있을 확률이 95%다.
표본평균(\bar x)이 표본 통계량의 표본평균(\mu_x) 표준편차의 두 배(2σ) 안에 있을 확률
- Confident '95%' chance that 표본통계량 is within 표준편차 두 배(2σ) of the 모집단
- = 모수가 구한 표본 통계량의 표본분포 표준편차 두 배(2σ) 내에 위치할 확률이 95%다
표본분포의 평균(\mu_x)이 표본분포 표준편차의 두 배 안에 있을 확률- Confident '95%' chance that 모수 is within 표준편차 두 배(2σ) of the 표본 통계량
- 표준편차 두 배(2σ) 값이 무엇인지 알아낼 수 있으면, 신뢰구간을 구하는 게 가능해짐 (but 실제 p는 알 수 없음)
- 때문에 (2)번의 표본 통계량의 표본분포의 표준편차 식에서 추정치 p^ 사용
- 표본비율의 표준오차
(4) 95%의 유의수준에서 계산한 표본 통계량의 오차 범위를 신뢰구간으로 봄
* 오차 범위 : 표준오차 * 2 (표준오차 두 배 위, 아래의 범위)
- 오차 범위는 표본을 추출할 때마다 표본 통계량이 바뀌기 때문에 계속 바뀜
- 왜냐하면 오차 범위를 계산하는 식 안에 표준오차가 포함되어 있기 때문
- 그렇기 때문에 이런 과정을 반복하면 각각의 경우마다 다른 신뢰구간이 나오게 되고,
결국 그 안에 실제 모수가 들어있긴 할 것 - 95%의 확률로 신뢰구간은 모수를 포함함
- 표본 개수 n을 늘릴 수록 신뢰구간의 길이는 감소함
- 신뢰도를 높인다 → 각 구간에서 모수의 실제 값을 포착하기 쉽다는 뜻 (큰 오차범위, 넓은 구간)
1-2. 모비율 추정하기
▶ 유효한 신뢰구간에 필요한 조건
- 임의성 : 랜덤 샘플링
- 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
- 정규분포의 조건을 만족해야 함
- np^ >= 10 and n(1-p^) >= 10
- 정규분포의 조건을 만족해야 함
- 독립성 : 각각의 관측값이 독립이어야 함
- 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
- 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨
▶ 주어진 신뢰 구간에 대한 임계값(z*)
(예시문제)
![]() |
![]() |
전체 94% 면적에 해당하는 z 스코어값을 찾으면 됨
▶ p에 대한 신뢰구간 만들고 해석하기
(예시문제)
![]() |
![]() |
1-3. 모평균 추정하기
▶ t-통계량이란?
ˉx±t∗s√n
▶ 유효한 신뢰구간에 필요한 조건
- 임의성 : 랜덤 샘플링
- 일반성 : 표본 통계량의 분포가 정규분포를 따라야 함
- 모집단이 정규분포를 따라야 함
- 표본의 크기가 충분히 커야 함 ( n >= 30 )
- 중심극한 정리에 의해, n >= 30일 떄 \bar x 의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
- 독립성 : 각각의 관측값이 독립이어야 함
- 비복원 추출 시, 표본의 크기 n이 모집단 크기의 10%보다 작아야 함
- 그래야 표본에서 관측값이 제거되어도 모집단을 크게 변화시키지 않게 됨
- 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때
\bar x 의 표준편차에 대한 공식을 사용할 수 있음
- 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때
- \bar x의 표준편차 = \sigma
- \bar x의 표준오차 = s_x
- 보통 모표준편차 \sigma를 모르기 때문에 \sigma의 추정치로써 표본표준편차 s_x로 대체
▶ 평균에 대한 t구간 설정하기
ˉX±t∗sx√n
(예시문제)

2. 12단원
2-1. 유의성 검정의 원리
▶ 단순 가설 검정
확률이 5% 이하면 우연에 의한 것이라고 보기에는 많이 미심쩍다..라고 판단 가능
(예시문제)
![]() |
![]() (5 + 24 + 72) / 1000 = 0.101 |
▶ 영가설과 대립가설
귀무가설 : 예상대로 일어난다는 가정, 차이가 없는 가설, 모수가 사람들이 예상하는 값과 동일
(예시문제)

▶ p-값과 유의성 검정
(1) 귀무가설, 대립가설 세우기
(2) 유의수준 정하기 (\alpha = 0.01, 0.05, 0.1 등)
(3) 표본 추출하기 ( 표본개수 n, 표본통계량 \bar x, s)
(4) p-value : P(statistic | 귀무가설 true), 귀무가설이 참이라고 주어지면 표본통계량을 구할 수 있는 확률
(5) p-value가 유의수준보다 크면 귀무가설 채택, 작으면 귀무가설 기각
(예시문제)
![]() |
![]() |
p값 = 0.125 란, 평균값이 17lbs 이고, 표준편차가 1lb인 정규모집단에서 임의로 10개의 표본을 모집하면, 표본의 평균이 16.5lbs 이하일 확률이 12.5% 정도 된다는 것 |
2-2. 오차확률과 검정력
▶ 1종 오류와 2종 오류
Ho 참 | Ho 거짓 | |
Ho 기각 | 제 1종 오류 ( α ) | 검정력 ( 1- β ) |
Ho 채택 | O | 제 2종 오류 ( β ) |
▶ 유의성 검정에서 검정력이란?
![]() |
- α가 커지면 검정력이 작아짐 - α가 작아지면 검정력이 커짐 하나가 커지면, 다른 하나가 작아짐 α ↑ 검정력 ↑ P(제 1종 오류) ↑ n ↑ 표본 분포가 좁아지면서 변이성이 낮아지고, 검정력 ↑ |
2-3. 모비율의 검정
▶ 비율의 z-검정에 필요한 조건
- 임의성 : 임의 표본, 무작위 실험으로 표본 추출
- 일반성 : p^의 표본 분포는 정규분포를 따라야 함
- 적어도 성공 횟수(np >= 10)와 실패 횟수(n(1-p) >= 10)가 10이 되어야 함
- 독립성 : 각 관측값이 독립이어야 함
- 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨
▶ 비율의 검정에서 z-통계량 계산하기
ˆp−p0√p0(1−p0)n
▶ 비율의 z-검정에 대한 결론 도출
(예시문제)
![]() |
![]() |
왜 타당한 결론이 아닌지..?
2-3. 모평균의 검정
▶ 평균의 t-검정에 필요한 조건
- 임의성 : 임의 표본, 무작위 실험으로 표본 추출
- 일반성 : 표본평균의 표본 분포는 정규분포를 따라야 함
- 모집단이 정규 분포를 따르거나
- 표본의 크기가 충분히 커야 함 ( n >= 30 )
- 중심극한 정리에 의해, n >= 30일 떄 표본평균의 표본분포는 모집단 분포의 형태와 상관없이 정규분포를 따름
- n < 30 일 때는 표본 자료를 그래프로 나타내 본 뒤, 그래프의 형태를 바탕으로 일반성 조건에 대한 결정을 내려야 함. (이상치 등으로 인한 큰 왜곡이 없으면 일반성 조건을 만족한다고 판단)
- 독립성 : 각 관측값이 독립이어야 함
- 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨
- 표본의 크기가 10% 이하라면, 관측값을 제거해도 모집단에 큰 영향을 미치지 않기 때문
- 관측값의 독립성을 가정하면, 신뢰구간을 만들거나 유의성 검정을 시행할 때 표본평균의 표준편차에 대한 공식을 사용할 수 있음
- 보통 모표준편차를 모르기 때문에 표본 표준편차로 대체하게 되고, 이를 표준편차와 구분하기 위해 표본평균의 표준오차라고 부름
- 비복원 추출의 경우, 표본의 크기는 모집단의 10%를 초과하면 안됨
▶ 평균의 t-검정에서 P-값 계산하기

• 정답 : c번
t값의 분모에는 σ / 루트 n
자유도 df = n-1
t분포표를 활용해 계산된 t값에 대한 p-value 확인
(단측 검정 시 해당 값의 *2)
이후 해당 p-value와 유의수준 비교해서
가설 채택 또는 기각하기
[ t분포표 보는 법 ]
https://math100.tistory.com/43
t분포표 보는 법
이전 글에서 t분포는 확률을 구할 때 사용하는 분포가 아니라, 나중에 신뢰구간이랑 가설검정을 할 때 사용하는 분포라고 했었는데, 나중에 신뢰구간이랑 가설검정을 하려면 그래프의 x축 좌표
math100.tistory.com
2-4. 유의성 검정 더 알아보기
▶ z-통계랑 vs. t-통계량

- z-통계량
- 실제 통계량에서 표본평균 통계량을 구한 경우
표본 정규분포표를 이용해 해당 z-값에 해당하는 확률을 확인할 수 있음 - 하지만 z-값을 구할 때 모표준편차(σ)도 모를 수 있음
이 때는 표본 표준편차(s) 를 사용하게 되는데 - 표본의 개수 n이 30보다 크면 정규분포를 따르게 되고,
해당 표본표준편차는 모표준편차의 좋은 추정값이 될 수 있음
그 결과, 표준정규분포표(z-table)를 이용해 극값을 얻는 확률을 찾을 수 있음
- 실제 통계량에서 표본평균 통계량을 구한 경우
- t-통계량
- 하지만
표본의 개수 n이 30보다 작아지면 정규분포를 따르지 않게 되고, t-분포를 따르게 됨
t-값을 계산한 뒤 t-분포표를 이용해 극값을 얻는 확률을 찾을 수 있음
- 하지만
'통계학, 인과추론 스터디 > 확률과 통계' 카테고리의 다른 글
통계학 Khan Academy | 14~16단원 (카이제곱 검정, 회귀분석, 분산분석) (0) | 2024.08.19 |
---|---|
통계학 Khan Academy | 13단원 (두 집단 간 차이에 대한 두 개의 표본 추론) (0) | 2024.08.12 |
통계학 Khan Academy | 9~10단원 (확률변수, 기하변수, 베르누이 분포, 푸아송 분포, 표본분포) (0) | 2024.07.31 |
통계학 Khan Academy | 7~8단원 (이론적 확률 vs. 통계적 확률, 순열과 조합) (3) | 2024.07.22 |
통계학 Khan Academy | 확률과 통계 4~6단원 (자료분포 모델링, 연구방법론) (3) | 2024.07.15 |
댓글