성향점수
5.1 관리자 교육의 효과
[ 관리자 교육의 효과 실험 ]
- 목적 : 관리자 교육과 직원 참여도 간의 인과관계 추정
- 프로그램에 등록된 관리자의 직원들과 등록되지 않은 직원들에 대한 참여도 비교
- 실험 설계 : 관리자들을 무작위로 프로그램에 참여시키기
→ 불응 발생 (프로그램에 참여해야 할 관리자는 참여X, 참석 대상이 아닌 관리자는 참여O)
→ 교란 요인 발생 (처치가 무작위로 배정되지 않음)- 교란 요인을 보정해 실험군과 대조군을 비교할 수 있도록 해야 함.
5.2 회귀분석과 보정
성향점수 가중치 추정값이 회귀 추정값과 같은지 확인해보기
[ 회귀 추정값으로 교란요인 보정 ]
- 실험군과 대조군을 단순 비교하면 편향된 결과가 나옴
- 데이터에 있는 공변량을 보정해 회귀 모델을 추정해 편향 줄이기
- $ engagement_{i} = \tau{T_{i}} + \theta X_{i} + e_{i} $
- X는 모든 교란 요인과 절편을 위한 상수 열을 포함함.
- 보정한 결과가 (실험군과 대조군을 단순 비교한) 편향된 추정값에 비해 작게 나옴
→ 긍정 편향이 있음을 의미
- 이 결과의 의미는,
이미 직원 참여도가 높은 관리자가 교육 프로그램에 더 많이 참여했을 가능성이 높다는 의미
- 이 결과의 의미는,
5.3 성향점수
- 성향점수 가중치는 성향점수(propensity score)라는 개념을 중심으로 이루어짐.
교란요인 X를 직접 통제할 필요 없이 조건부 독립성 $ (Y_{1}, Y_{0}) ⊥ T | X $을 만족할 수 있다는 깨달음에서 비롯됨. - 교란요인을 통제하는 대신, E[T | X]를 추정하는 균헝점수를 통제하면 됨.
- 이 균형점수는 처치의 조건부 확률(P(T|X))이나 성향점수($e(x)$)라고 부름
- 성향점수는 차원 축소 기법으로 볼 수도 있음
- 고차원일 수도 있는 X를 조건부로 설정하는 대신, 성향점수를 조건부로 두고 X로 유입되는 뒷문 경로를 차단할 수 있음
- $ (Y_{1}, Y_{0}) ⊥ T | P(x) $
- 성향점수는 처치 받을 조건부 확률 (X를 처치 T로 변환하는 일종의 함수라고 생각하면 됨)
- 이 그래프에서 $ e(x) $가 무엇인지 알면 X만으로는 T에 대한 추가 정보를 얻을 수 없음.
- 즉, $ e(x) $를 통제하면 곧 X를 직접 통제할 때와 동일한 효과가 나타남.
[ 관리자 교육 프로그램에 성향점수 적용 ] (p.199)
- 직속 상사의 참여가 높은 관리자일수록 교육에 참여할 가능성이 더 높으므로 처음에는 실험군과 대조군을 비교할 수 없음
- 그러나 실험군과 대조군에서 각각 한 명씩 총 두명의 관리자를 뽑되 처치 받을 확률이 동일하다면, 두 그룹은 비교할 수 있음.
- 만약 두 관리자가 처치 받을 확률이 같으면, 그중 한 명이 처치 받고 다른 한 명이 처치를 받지 않은 유일한 이유는 순전히 우연에 의한 것
- 성향점수가 동일한 상황에서 처치는 사실상 무작위 배정된 것과 같다고 볼 수 있음
[질문]
실험군과 대조군에서 각각 한 명씩 뽑았는데 처치 받을 확률이 같다는 말이 무슨 의미인가?
: 실험군 / 대조군 이렇게 나눠 놓은 것이 이미 처치 받을 사람과 처지 받지 않을 사람을 나눠놨다는 말인데
여기에서 한 명씩 뽑았을 때 처치 받을 확률이 동일하다는 말은..
이미 그룹은 나눠져 있고, 그 안에 편향을 발생시키는 교란 요인들을 보정해
두 그룹이 마치 무작위로 배정해놓은 것처럼
어느 그룹에서 누굴 뽑더라도 처치 받을 확률을 동일하게 만들어놨다는 건가?
그럼 이전에 회귀 분석의 교란요인을 보정하는 방법과 어떤 차이가 있는 걸까? '확률'이라는 점?
5.3.1 성향점수 추정
실제 성향점수 $ e(x) $는 알 수 없는 이상적인 값이고, 현실에서는 대부분 처치 배정 매커니즘을 대부분 알 수 없기 때문에 추정값으로 대체해야 함.
교육 프로그램 예시에서는 이진 처치이기 때문에 $e(x)$를 추정할 때 로지스틱 회귀를 사용하면 좋음.
5.3.2 성향점수와 직교화
- OLS는 선형회귀분석을 사용하여 T를 모델링하는 것
- 성향점수 추정값은 로지스틱 회귀분석을 사용해 얻어지는 것
- 하지만 두 접근법의 결과는 매우 유사함
5.3.3 성향점수 매칭 (PSM)
- 성향점수를 추정하는 또 다른 접근 방식은 매칭 추정량(matching estimateor)임.
- 매칭 추정량이란, 관측 가능한 특징이 비슷한 실험 대상의 짝을 찾아 실험군과 대조군을 비교하는 것.
- 각 실험 대상에 짝이 지어졌을 때에 추정할 수 있는 ATE값
- $ \widetilde{ATE} = \frac{1}{N} \sum \{ (Y_{i} - Y_{jm}(i))T_{i} + (Y_{jm}(i) - Y_{i})(1-T_{i}) \} $
- 여기에서 $ Y_{jm}(i) $는 실험군에 속한 대상 i에 짝지어진 대상의 결과를 나타냄.
- 매칭 추정량의 단점
- 편향될 가능성이 있음
- 분산을 추정하기 어려움
5.3.4 역확률 가중치 (IPW)
- 처치의 역확률에 따라 데이터의 가중치를 재조정하여 해당 데이터에서 처치가 무작위 배정된 것처럼 보이게 할 수 있음
- 이를 위해 표본에 1/P (T=t | X) 가중치를 부여해 모든 실험 대상이 처치 t를 받았을 경우와 비슷한 유사 모집단(pseudo-population)을 생성함.
- $ E[Y_{t}] = E[\frac{1(T=t)Y}{P(T=t | X)}] $
[ 관리자 교육 프로그램에 역확률 가중치 적용 ]
- 모든 관리자가 교육받았을 때의 평균 참여도$(Y_{i})$의 기댓값을 알고싶다고 가정.
- 이 값을 구하기 위해 실험군을 처치 받을 확률의 역함수(역확률)로 조정하면 됨.
- 처치 받은 대상이 받지 않은 것처럼 보이게 만드는 것
- 그 결과, 대조군이 처치 받았을 때 어떤 일이 일어났을지 $ Y_{1} | T = 0 $에 관한 유용한 정보를 제공할 수 있게됨.
마찬가지로 대조군에 쏙한 대상이 실험군과 매우 유사하다면 $ Y_{0} | T = 1 $의 좋은 추정값이 될 수 있음.- 이 역확률 가중치로 인해 교육 받지 않은 것처럼 보이는 교육받은 관리자에게 높은 중요도를 부여,
- 교육받은 것처럼 보이는 교육받지 않은 관리자에게도 높은 중요도를 부여하게 됨.
성향점수로 평균 잠재적 효과를 알아낼 수 있으면, 이를 통해 ATE를 구하는 것도 가능함.
$ ATE = E[\frac{1(T=t)Y}{P(T=1|X)}] - E[\frac{1(T=0)Y}{P(T=0|X)}] $
이를 단순화하면,
$ ATE = E[Y\frac{T-e(x)}{e(x)(1-e(x))}] $
5.3.5 역확률 가중치의 분산
- 큰 가중치를 가진다는 것은,
몇몇 실험 대상이 최종 추정값에 큰 영향을 미친다는 의미. - 즉, 최종 추정값에 큰 영향을 주는 소수의 대상들이 분산 증가의 원인이 됨.
[ 인과적 콘텍스트 밴딧 ] (p.210-211)
- 인과적 콘텍스트 밴딧(contextual bandit)은 강화학습의 한 종류.
선택적 의사결정 정책을 학습하는 것이 목표 - 콘텍스트 밴딧의 구성요소는 두 가지로 '샘플링'과 '추정'이 있음.
- 샘플링 : 아직 탐색되지 않은 영역에서 데이터 수집과 최적의 처치 배정의 균형을 맞춤.
- 추정 : 사용 가능한 데이터로 최적의 처치를 찾으려고 노력함.
여기에서 최선은 최적화하려는 결과 Y의 기댓값으로 정의됨. - 알고리즘의 목표는 최적의 방식으로 처치를 배정하는 것이라서, 알고리즘이 수집하는 데이터는 무작위가 아닌 교란된 데이터임.
그렇기 때문에 콘텍스트 밴딧에 인과적 접근 방식을 사용하면 큰 개션 효과가 있음.
- 의사결정 과정이 확률적이라면 각 처치를 배정할 확률을 얻을 수 있고, 이게 성향점수 $e(x)$가 됨.
이 성향점수를 사용해 이미 처치가 선택되고, 관측된 결과가 있는 과거 데이터를 재조정할 수 있음.
재조정된 데이터는 교란 요인이 없어야 하며, 이에 따라 최적의 처치를 학습하기 훨씬 쉬워짐.
5.3.6 안정된 성향점수 가중치
- 실험군에 1 / P(T=1|X)의 가중치를 주면 원래 표본 크기와 같지만 모든 대상이 처치를 받은 것처럼 행동하는 유사 모집단을 만듦.
→ 가중치의 합이 원래 표본 크기와 거의 같음을 의미함. - 머신러닝 관점에서 IPW는 중요도 샘플링(importance sampling)의 응용으로 바라볼 수 있음.
- 중요도 샘플링에는 원본 분포 $ q(x) $의 데이터가 있지만 목표 분포인 $ p(x) $에서 샘플링하고 싶을 때 $ q(x) $의 데이터를 $ p(x) / q(x) $로 재조정하는 방식을 사용함.
- IPW에 적용하면, 실험군에 1 / P(T=1|X)의 가중치를 주는 것은
P(T=1|X) 분포에서 나온 데이터를 사용하고 이 데이터를 사용해 P(T=1|X) = 1 로 재구성하는 것을 의미.
여기에서 처치 확률이 단순히 1이기 때문에, 더 이상 X에 종속이지 않음. - 또 X가 Y에 영향을 줄 경우 P(T=1 | X)는 편향될 수 있다는 점에 유의해야 함.
- 이를 이해하는 또 다른 방법은 실험군과 대조군의 가중치 합이 원래 표본 크기가 얼마나 가까운지를 확인하는 것.
- 처치 확률이 매우 낮은 경우 P(T|X)의 값이 매우 작아져 계산상의 문제가 발생할 수 있음
- 이를 해결하는 간단한 방법은 처치의 주변확률인 P(T=t)를 사용해 가중치를 안정화 하는 것임.
- $ w = \frac{P(T=t)}{P(T=t | X)} $
- 이 가중치를 사용하면 작은 분모가 작은 분자와 균형을 이루기 때문에 확률이 낮은 처치에 큰 가중치가 적용되지 않음.
- + 안정된 가중치는 실험군과 대조군의 유효 크기(effective size → 가중치의 합)가 각각 원래 실험군과 대조군의 유효 크기와 일치하는 유사 모집단을 재구성함.
- (중요도 샘플링과 비교) 안정된 가중치를 사용하면 처치는 X에 따라 분포 P(T=t |X)가 달라지지만, 주변 확률 P(T=t)를 재구성할 수 있음.
5.3.7 유사 모집단
- 만약 처치가 무작위 배정된다면, 처치는 X에 독립적이며 P(T|X) = P(T)가 됨.
처치가 X에 독립적이면 X에서 오는 교란 편향이 없고 보정할 필요가 없음. - 처치가 무작위로 배정되지 않은 경우, IPW 편향 제거 방법(가중치)을 사용해 실험군과 대조군이 처치 받거나 받지 않을 확률을 비슷하게 만듦.
- 실험군의 결과인 Y|T = 1을 취하고, $ \hat e(x) $가 낮으면 가중치를 높이고, $ \hat e(x) $가 높으면 가중치를 낮춰서 $ Y_{1}|T = 0 $이 어떤 형태인지 알아내려고 하는 것.
- 대조군도 표본에 1/(1-P(T=1)) 만큼 재조정해 $ Y_{0}|T=1 $을 파악하는 시도를 할 수 있음.
5.3.8 선택편향
IPW는 교란 편향 보정 뿐 아니라 선택 편향을 보정할 때도 사용할 수 있음.
[ 앱에 대한 고객 만족도 ]
- 고객들에게 1~5까지의 척도로 제품을 평가하는 설문을 보냄.
- 일부 고객은 미응답할 것이므로, 결과는 편향될 것.
- 이를 보정하기 위해 공변량(ex. 나이, 소득, 앱 사용량)이 주어지면 응답률 R, P(R=1|X)를 추정할 수 있음.
- 그 후, 응답자에게 $ 1/ \hat P(R=1) $ 만큼의 가중치를 부여.
- $ \hat P(R=1) $이 낮은 미응답자와 유사한 응답자에게 높은 가중치를 부여하는 것!
- 이렇게 설문 응답자는 자신 뿐 아니라 비슷한 고객을 대표해 원래 모집단처럼 행동하지만, 마치 모두가 설문에 응답한 것처럼 보이는 유사 모집단을 생성하는 것.
교란편향과 선택편향을 동시에 보정해야 할 때, 두 가중치의 곱을 사용할 수 있음.
이 곱이 매우 작을 수 있어 교란편향 가중치를 주변확률 P(T=t)로 안정화하면 좋음.
$ W = \frac{\hat P(T=t)}{\hat (R=1|X) \hat P(T=t|x)} $
5.3.9 편향-분산 트레이드오프
IPW에는 편향-분산 트레이드오프가 존재함.
일반적으로 성향점수 모델이 더 정확할수록 편향이 더 작아지지만
$ e(x) $에 대해 매우 정확한 모델은 매우 부정확한 효과 추정값을 생성할 수 있음.
- T를 잘 예측하는 공변량 $X_{k}$이 있다면 이 변수는 $e(x)$에 대한 정확한 모델을 제공할 것임.
- 그러나 해당 변수가 Y의 원인이 아니라면, 이는 교란 요인이 아님. IPW 추정값의 분산만 높일 것!
- 예를 들어, T에 대해 매우 정확한 모델은 모든 실험군에서 매우 높은 $ \hat e(x) $ (처치 대상임을 정확하게 예측)를, 모든 대조군에서 매우 낮은 $ \hat e(x) $ (처치 받지 않은 대상임을 정확하게 예측)를 출력할 것.
- 이렇게 하면 $ Y_{1}|T = 0 $을 추정할 수 있는 $ \hat e(x) $가 낮은 실험군이 없고,
반대로 $ Y_{0}|T = 1 $를 추정할 수 있는 $ \hat e(x) $가 높은 대조군이 남아있지 않음.
5.3.10 성향점수의 양수성 가정
편향-분산 트레이드오프는 두 가지 인과추론 가정인 '조건부 독립(비교란성)'과 '양수성' 관점에서 바라볼 수 있음.
- 더 많은 변수를 추가해 $ e(x) $에 대한 모델을 더 정교하게 만들수록 조건부 독립성 가정을 만족하는 방향으로 나아갈 수 있음.
- 하지만 동시에 양수성 가정의 타당성이 떨어지게 됨.
대조군에서 멀리 떨어진 낮은 $ \hat{e}(x) $ 영역에 처치가 집중되고, 그 반대도 마찬가지가 되기 때문.
IPW 재구성은 재조정할 수 있는 표본이 있을 때만 가능.
- 성향점수가 낮은(대조군이 될 확률이 높은) 영역에 처치 받은 표본이 없으면, 해당 영역에 $Y_{1}$을 재구성하는 재조정은 불가능함.
→ IPW 측면에서 양수성 가정 위배.
→ 양수성 가정이 완전히 위배되지 않았더라도 일부 실험 대상의 성향점수가 매우 작거나 큰 경우 IPW는 분산이 커짐. - (p.218) '큰 분산'과 '양수성 가정 위배'라는 두 가지 문제를 종합하면, IPW 추정량이 데이터에서 ATE를 1로 찾지 못하는 것을 볼 수 있음.
- 처치변수의 성향점수 분포를 그려보면 양수성 가정을 잘 만족하는지 시각적으로 확인할 수 있음.
- 회귀분석은 잠재적 결과의 평활도(smoothness)에 대한 E[Y|T,X]의 모수적인 가정으로 양수성 가정을 대체할 수 있음.
선형모델이 조건부 기댓값을 잘 반영하면, 양수성 가정이 유지되지 않는 영역에서도 ATE를 구할 수 있음.
↔ 반면 IPW는 잠재적 결과의 형태에 대해 아무런 가정을 하지 않아 외삽이 필요할 경우, IPW는 ATE를 정확하게 추정하기 어려울 수 있음.
5.4 디자인 vs. 모델 기반 식별
비실험 데이터에서 편향을 제거하는 세가지 방법 : 회귀분석, 성향점수 매칭(PSM), 역확률 가중치(IPW)
# 이 방법은 언제 어떻게 사용하는 게 좋을까?
- 모델 기반 식별
- 처치 및 추가 공변량을 조건부로 설정하고 잠재적 결과에 대한 모델 형태로 가정하는 것을 포함함.
- 목표는 추정에 필요한 누락된 잠재적 결과를 대체하는 것
- 디자인 기반 식별
- 처치 배정 매커니즘에 대한 가정을 함.
회귀분석은 직교화 관점에서 보면 디자인 기반이고, 잠재적 결과 모델의 추정량 관점에서는 모델 기반임.
5.5 이중 강건 추정
이중 강건(DR : douby robust) 추정 : 모델 기반 + 디자인 기반 식별
# 성향점수와 선형회귀 분석을 결합하는 방법
$ \hat\mu_{t}^{DR} (\hat m, \hat e) = \frac{1}{N} \sum\hat m(X) + \frac{1}{N} \sum[\frac{T}{\hat e(x)} (Y-\hat m(X))] $
- $\hat m(X)$는 $E[Y_{t}|X]$에 대한 모델
- $\hat e(x)$는 $P(T|X)$의 성향점수
- 위 식이 강건한 이유는 $\hat m(X)$ 나 $\hat e(x)$모델 중 하나만 올바르게 지정하면 되기 때문.
- 결과모델 $\hat m(X)$는 정확하고, 성향점수가 부정확한 경우,
두 번째 항인 $E[Y-\hat m(X)]$이 0으로 수렴하면서 첫 번째 항만 남게 됨. - 결과모델 $\hat m(X)$가 부정확하고, 성향점수가 정확한 경우, (위 식을 대수적으로 변형하면)
$\hat\mu_{t}^{DR}(\hat m, \hat e) = \frac{1}{N}\sum\frac{TY}{\hat e(X)} - \frac{1}{N}\sum[\frac{T-\hat e(X)}{\hat e(X)}\hat m(X)]$에서 $T=\hat e(X)$가 0으로 수렴하면서 IPW 추정량만 남게 됨.
- 결과모델 $\hat m(X)$는 정확하고, 성향점수가 부정확한 경우,
- 앞의 추정량은 평균 반사실적 결과인 $Y_{t}$를 추정함.
- 평균 처치효과를 추정하려면 $E[Y_{0}]$와 $E[Y_{1}]$ 각각에 두 추정량을 함께 사용하고 그 차이를 계산하면 됨.
- $ATE = \mu_{1}^{DR}(\hat m, \hat e) - \mu_{0}^{DR}(\hat m, \hat e)$
5.6 연속형 처치에서의 일반화 성향점수
# 연속형 처치 처리 방법
- 4장에서는 처치 반응의 함수 형태를 가정함으로써 문제를 해결함
- $y=a+bt$(선형 형태)나 $y=a+b \sqrt{t}$(제곱근 형태)와 같은 형태를 가정한 다음 OLS로 추정.
- 반면, 성향점수 가중치에서는 모수적 반응 함수와는 존재하지 않음.
잠재적 결과는 재조정하고 평균을 구하는 형태인 비모수적 방식으로 추정됨. - T가 연속형일 때 잠재적 결과 $Y_{t}$는 무한히 많이 존재함.
- 또 연속형 변수의 확률은 항상 0이므로 $P(T=t|X)$는 추정할 수 없음.
- 그렇기 때문에 조건부 확률 $P(T=t|X)$ 대신 조건부 밀도함수 $f(T|X)$ 사용.
단, 이 접근법은 처치 분포를 정해야 함. - 분포를 정한 뒤, 분포의 매개변수인 평균과 표준편차를 추정해야 함.
→ OLS를 사용해 처치변수 적합시키기.
→ 적합된 값을 $\mu_{i}$로 사용하고 잔차의 표준편차를 $\sigma$로 사용.
이렇게 하면 조건부 밀도의 추정값을 얻을 수 있음.
→ 그 후 조건부 밀도 평가하기 (밀도함수의 x인수에 T 전달하기)
→ 회귀분석에서 일반화 성향점수의 역수를 가중치로 사용해 편향 보정하기.
→ 주변밀도함수 $f(t)$로 가중치 안정화하기 (이산형 처치의 가중치 안정화는 선택사항이지만, 연속형 처치에서의 가중치 안정화는 필수임)
- 그렇기 때문에 조건부 확률 $P(T=t|X)$ 대신 조건부 밀도함수 $f(T|X)$ 사용.
# 이 문제를 해결하는 방법
(1) 연속형 처치 이산화 하기
(2) 일반화 성향점수(GPS : generalized propensity score) 사용하기 (기존 성향점수 변형 버전)
[ 요약 ]
처치가 이상형일 때는 >> IPW 사용 선호
처치가 연속형일 때는 >> 회귀 모델링 선호
'통계학, 인과추론 스터디 > 인과추론' 카테고리의 다른 글
인과추론 | Chapter 4. 유용한 선형회귀 (2) (1) | 2024.09.30 |
---|---|
인과추론 | Chapter 4. 유용한 선형회귀 (1) (2) | 2024.09.23 |
인과추론 | Chapter 3. 그래프 인과모델 (1) | 2024.09.19 |
인과추론 | Chapter 2. 무작위 실험 및 기초 통계 리뷰 (0) | 2024.09.09 |
인과추론 | Chapter 1. 인과추론 소개 (9) | 2024.09.02 |
댓글