4.1 선형회귀의 필요성
▶ 회귀 모델이 필요한 이유
- 처치가 무작위 배정된 것처럼 보이도록 변수를 보정하는 공식
$ ATE = E_{x} \{{E[Y | T=1, X=x] - E[Y | T=0, X=x]}\} $ - 여기에 조건부 독립성 가정 $ (Y_{0}, Y_{1}) ⊥ T | X $ 이 만족되면 인과효과를 식별할 수 있음
- 하지만 차원의 저주 때문에 공변량이 많을 때 보정공식을 그대로 적용하면 데이터 희소성 문제를 겪을 수 있음
- 차원의 저주란, 차원이 증가하면서 학습 데이터의 수가 차원 수보다 적어져서 성능이 저하되는 현상을 말함
- 차원의 저주에서 벗어나는 방법은 잠재적 결과를 선형회귀 같은 방식으로 모델링할 수 있다고 가정하고, X로 정의된 각각의 셀을 내삽(interpolate)하고 외삽(extrapolate)하는 것임
- 이런 맥락에서 선형회귀분석을 차원 축소 알고리즘으로 생각할 수 있음
- 이 알고리즘은 결과변수를 X 변수로 투영한 후, 이 투영된 값들을 바탕으로 실험군과 대조군을 비교
[질문]
(p.143) .
결과변수를 X변수로 투영한다는 게 무슨 말일까?
비슷한 말로 결과 Y를 교란요인 X에 대해 회귀한다 이런 말이 있는 것 같은데
이게 무슨 말일까?
>> 회귀(regression): 두 변수 간 관계가 일반화된 선형관계의 평균으로 돌아간다는 것을 의미
▶ A/B 테스트와 회귀분석
- A/B 테스트 결과를 회귀분석으로 해석하면, 필요한 모든 추론 통계량을 바로 얻을 수 있음
import statsmodels.formula.api as smf
result = smf.ols('결과변수 ~ 설명변수', data=data).fit()
result.summary().tables[1]
$ 결과변수 = \beta_{0} + \beta_{1} * 설명변수 + e_{i} $
- $ \hat\beta_{0} $
- $ \beta_{0} $에 대한 추정값.
- 절편.
- 모델의 다른 변수가 0일 때 결과의 기댓값.
- 대조군에 속한 사람의 평균 처치효과
- $ \hat\beta_{1} $
- ATE (평균 처치효과 : 개별 대상의 잠재적 결과차이 $Y_{1}-Y_{0}$의 평균)에 대한 추정값.
- 두 그룹 간의 평균 차이를 의미
▶ 회귀분석을 통한 보정
- 편향을 보정하기 위해서는 이론적으로 모든 교란 요인에 따라
- (1) 데이터를 나누고,
- (2) 나눈 각 그룹 내에서 결과변수를 설명변수에 회귀하고,
- (3) 기울기 매개변수(계수) 추출을 통해 결과의 평균을 구해야 함
- 이 방법은 차원의 저주에 걸리게 함
- 하지만 회귀분석에서는 교란 요인을 직접 보정하는 대신
OLS(Ordinary least square : 최소제곱법)로 추정할 모델에 교란 요인을 단순히 추가해주기만 하면 됨 - $ 결과변수 = \beta_{0} + \beta_{1}*line + \theta X_{i} + e_{i} $
- X는 교란요인의 벡터, $ \theta $는 해당 교란 요인과 관련된 매개변수의 벡터(장애모수)
- 모델의 변수를 미분한 결과는 모델의 다른 모든 변수가 고정된 상태에서 설명변수를 조금 늘렸을 때 결과변수가 얼마나 변할지에 대한 기댓값을 나타냄.
- 회귀분석이 교란요인을 보정하는 방법임.
- 이로 인해 처치와 결과 사이의 관계를 추정하는 동안 교란요인을 고정할 수 있게됨.
- 프리슈-워-로벨 (FWL) 정리
- 전처리 단계에서 사용하는 고급 편향 제거 기법
- FWL 정리를 사용하면 편향 제거 단계와 영향 추정 단계를 분리할 수 있음
4.2 회귀분석 이론
$ \beta* $ : 매개변수 벡터
$ \beta* $ = $ \displaystyle argmin_{\beta} E[(Y_{i} - X`_{i} \beta)^2] $
선형회귀분석은 평균제곱오차(MSE : mean squared error)를 최소화하는 매개변수를 찾음
위 식을 미분하고 그 결과를 0으로 두었을 때의 해(solution)
$ \beta* = E[X`X]^{-1} E[X`Y] $
표본을 통해 회귀계수 추정
$ \hat\beta = (X`X)^{-1} X`Y $
▶ 단순선형회귀
인과추론에서는 변수 T가 결과 Y에 미치는 인과효과를 추정하는 경우가 많음
단일 설명변수 T를 사용할 때 관련된 매개변수
= 처치와 결과에 대한 공분산 / 처치의 분산
$ \hat\tau = \frac{Cov(Y_{i}, T_{i})}{Var(T_{i})} = \frac{E[(T_{i}-\bar{T})(Y_{i}-\bar{Y})]}{E[(T_{i}-\bar{T})^2]} $
- T가 무작위로 배정된 경우 $ \beta_{1} $ 은 ATE임
- 회귀분석은 처치와 결과가 어떻게 함께 움직이는지(분자의 공분산)를 파악하고, 이를 처치 대상에 따라 조정함
▶ 다중선형회귀
$ y_{i} = \beta_{0} + \tau T_{i} + \beta_{1} + \tau X_{1i} + ... + \beta_{k} + \tau X_{ki} + u_{i} $
$ \hat\tau = \frac{Cov(Y_{i}, \tilde{T_{i}})}{Var(\tilde{T_{i}})} $
- 여기에서 $ \tilde{T_{i}} $는 공변량 $ X_{1i} + ... + X_{ki} $ 에 대해 회귀한 잔차
- 다중회귀분석의 회귀계수는 모델의 다른 변수들의 효과를 고려한 후 얻은 동일 설명변수의 이변량 계수(두 개의 변수 간의 관계)
- 인과추론의 관점에서 보면 $ \tau $는 다른 모든 변수를 활용해 T를 예측한 후 얻은 T의 이변량 계수
- 다른 변수를 사용해 T를 예측할 수 있으면 T는 무작위가 아니지만 모든 교란 요인 X를 통제하면 T를 무작위처럼 보이게 할 수 있음
- 그러려면 선형회귀분석을 사용해 교란 요인에서 T를 예측한 다음, T에서 해당 회귀에 대한 잔차인 $ \tilde{T} $를 빼주면 됨
- T를 예측하는데 이미 사용한 변수인 X를 이용해서는 $ \tilde{T} $를 예측할 수 없음.
$ \tilde{T} $는 X의 다른 변수와 연관이 없는(상관관계가 없는) 버전의 처치임
[질문]
(p. 153~154)
(1) $ \tilde{T_{i}} $ 의 의미 : $ T_{i} $를 모든 공변량에 대해 회귀한 잔차
(2) $ \tau $ 는 다른 모든 변수를 활용해 T를 예측해 얻은 T의 이변량 계수
>> 다중회귀분석의 회귀계수는 모델의 다른 변수들의 효과를 고려한 후 얻은 동일 설명변수의 이변량 계수라는 의미
>> $ \tau $ 가 T의 이변량 계수라는데 2변량이니까 뭐와 뭐의 관계를 나타내는 계수라는 걸까?
>> 공분산과 분산과의 관계? 즉,
공분산(결과변수 $ Y_{i} $와 $ T_{i} $를 모든 공변량에 대해 회귀한 잔차 $ \tilde{T_{i}} $ 가 어떻게 함께 움직이는지)과
분산(모든 공변량에 대해 회귀한 잔차 $ \tilde{T_{i}} $의 분산) 사이의 관계?
>> 그래서 이게 무슨 의미지? 결과변수와 잔차의 공변동성을 잔차의 변동성으로 나눈 게 무슨 의미지?
>> 두 변수의 변동성을 자기 자신의 변동성으로 나눔으로써
두 변수 사이의 변동성이 가진 순수한 차이를 구할 수 있게 되는 것?
(3) $ \tilde{T} $는 X의 다른 변수와 연관이 없는(상관관계가 없는) 버전의 처치다.
해당 회귀에 대한 잔차가 처치..?
4.3 프리슈-워-로벨 정리와 직교화
FWL 스타일의 직교화(잔차화 : 편향제거단계)는 가장 먼저 사용할 수 있는 편향 제거 기법
- 잔차 : 표본으로 추정한 회귀식과 실제 관측값의 차이.
- 현상을 분석할때, 일부의 데이터(표본집단)에서 회귀식을 얻기 때문에, 잔차를 기준으로 회귀식을 추정할 수밖에 없음
비실험 데이터를 처치가 무작위 배정된 것처럼 보이게 함
FWL 정리에 따르면, 다중선형회귀 분석은 한 번에 추정하거나 세 단계로 나누어 추정할 수 있음
- 편향 제거 단계 : 처치 T를 교란 요인 X에 회귀하여 처치 잔차 $ \tilde{T} = T - \hat{T} $ 를 구함
- 잡음 제거 단계 : 결과 Y를 교란 요인 X에 대해 회귀하여 결과 잔차 $ \bar{Y} = Y - \hat{Y} $ 를 구함 >> 분산 감소
- 결과 모델 단계 : 결과 잔차 $ \tilde{Y}$를 잔차 $\tilde{T}$에 대해 회귀하여 T가 Y에 미치는 인과효과 추정값을 구함
▶ 편향 제거 단계
교란 요인으로부터 처치인 신용한도를 예측하는 회귀 모델을 적합시켜 데이터의 편향을 제거
$ \widetilde{line_{i}} = line_{i} - \widehat{line_{i}} $
그 다음 이 모델에서 신용 한도에 대한 잔차를 구함
→ 이 때의 잔차는 편향 제거 모델에 사용된 변수와는 상관관계가 없는 버전의 처치임
(p. 156) 예측값을 생성한 변수와 직교하기 때문
그 결과, 0을 중심으로 한 $ \widetilde{line} $ 이 만들어짐 (필요에 따라 평균 처치인 $ \bar{line} $을 다시 추가할 수 있음)
$ \widetilde{line_{i}} = line_{i} - \widehat{line_{i}} + \overline{line} $
▶ 잡음 제거 단계
인과효과 추정을 정확하게 하려면 편향 제거 단계가 중요함
잡음을 제거한다고 해서 처치효과의 추정값이 바뀌는 것은 아니지만, 분산을 줄일 수 있음.
크게 중요하진 않지만 포함하면 좋음
$ \widetilde{default_{i}} = default_{i} - \widehat{default_{i}} + \overline{default_{i}} $
결과를 처치가 아닌 공변량에 대해 회귀함
▶ 회귀 추정량의 표준오차
추정한 회귀계수의 표준오차 공식
$ SE(\hat\beta) = \frac{\sigma(\hat\epsilon)}{\sigma(\tilde{T} \sqrt{n-DF})} $
여기에서 $ \hat\epsilon $ 은 회귀 모델의 잔차, DF는 모델의 자유도(모델이 추정하는 매개변수의 수)
분자 : 결과를 더 잘 예측할수록 잔차가 작아지므로 추정값의 분산이 낮아짐.
분모 : 처치가 결과를 많이 설명하면 매개변수 추정값의 표준오차도 작아짐을 알 수 있음.
표준오차는 잔차화된 처치의 분산에 반비례하는 모습을 보임
▶ 최종 결과 모델
$\tilde{Y}$를 $\tilde{T}$에 회귀하면 됨
▶ FWL 정리 요약
[편향 제거 단계]
(1) 선형회귀분석을 사용해 E[T|X] 추정하기
(2) 편향이 제거된 버전의 처치 T - E[T|X] 구하기
[잡음 제거 단계]
(3) 회귀 모델을 사용해 E[Y|X] 추정하기
(4) 잡음 제거된 결과 Y - E[Y|X] 만들기
>> X에 의해 설명된 모든 분산을 고려한 후의 결과
X가 Y의 분산을 많이 설명하면 잡음 제거된 결과에는 잡음이 적어져 실제로 관심있는 T와 Y 사이의 관계를 더 쉽게 파악할 수 있음
[최종 결과 모델]
(5) 이 데이터에 최종 모델 적합시키기
4.4 결과 모델로서의 회귀분석
회귀분석은 처치를 직교화하는 방식
회귀분석은 잠재적 결과를 대체하는 방법으로 볼 수도 있음
(처치가 0 또는 1의 이진값으로 주어진다고 가정)
대조군(T=0)에서 X에 대한 Y의 회귀분석이 E[$Y_{0}$|X]를 잘 근사한다면, 해당 모델을 이용해 $Y_{0}$를 대체하고 ATT를 추정할 수 있음
$ ATT = \frac{1}{N_{1}} \sum{1(T_{i}=1)(Y_{i}-\hat\mu_{0}(X_{i}))} $
$N_{1}$은 실험군 대상자의 수
1() 은 지시함수_ 안에 있는 인수가 참이면 1, 거짓이면 0 반환
마찬가지로, 실험군(T=1)에서 X에 대한 Y의 회귀분석이 E[$Y_{1}$|X]를 잘 모델링할 수 있으면, 이를 이용해 대조군에서의 평균 효과를 추정할 수 있음
두 접근법을 병행해서 ATE를 추정하면
$ ATE = \frac{1}{N} \sum(\hat\mu_{1}(X_{i})-\hat\mu_{0}(X_{i})) $
이 추정량은 모든 실험 대상의 두 가지 잠재적 결과 모두를 대체함
Y를 X와 T 모두에 회귀하고, T에 대한 매개변수 추정값을 얻는 것과 동일함
누락된 잠재적 결과를 대체할 수도 있음
$ ATE = \frac{1}{N} \sum(1(T_{i}=1)[Y_{i} - \hat\mu_{0}(X_{i})] + 1(T_{i}=0)[\hat\mu_{1}(X_{i})-Y_{i}]) $
4.5 양수성과 외삽
회귀분석은 잠재적 결과를 모수적으로 모델링하기 때문에 데이터의 처치 범위 이외에 대해서도 외삽할 수 있음
공변량 공간 전반에 중첩이 있는 결과 추세선이 비슷하면 약간의 외삽은 문제가 되지 않음
양수성 가정이 충족되지 않을 경우(특정 처치를 전혀 받지 않을 확률이 있는 범위)에 회귀분석은 외삽을 통해 해당 가정이 충족되지 않는 영역을 대체하게 됨
'통계학, 인과추론 스터디 > 인과추론' 카테고리의 다른 글
인과추론 | Chapter 5. 성향점수 (3) | 2024.10.07 |
---|---|
인과추론 | Chapter 4. 유용한 선형회귀 (2) (1) | 2024.09.30 |
인과추론 | Chapter 3. 그래프 인과모델 (1) | 2024.09.19 |
인과추론 | Chapter 2. 무작위 실험 및 기초 통계 리뷰 (0) | 2024.09.09 |
인과추론 | Chapter 1. 인과추론 소개 (9) | 2024.09.02 |
댓글