인과추론 | Chapter 1. 인과추론 소개

    728x90

     

    통제 가능한 요소(마케팅 예산과 신용 한도)들을 변경했을 때, 

    원하는 비즈니스 결과(유입 사용자 수와 채무불이행 위험)에 어떤 영향을 미치는지 알아야 한다는 것

     

    1.1 인과추론의 개념

    • 연관관계 : 두 개의 수치나 확률변수가 같이 움직이는 것
    • 인과관계 : 한 변수의 변화가 다른 변수의 변화를 일으키는 것

    인과추론은,

    연관관계로부터 인과관계를 추론하고,

    언제 그리고 왜 서로 다른지 이해하는 과학

     

    1.2 인과추론의 목적

    원인과 결과의 관계를 알아야만 원인에 개입하여 원하는 결과를 가져올 수 있음

    >> 이 책은 개입의 영향을 이해하는 데에 중점을 둔 인과추론의 일부를 다룸

     

    1.3 머신러닝과 인과추론

    머신러닝을 잘 활용하려면 문제를 예측문제로 구성해야 함

    문제점

    • 예측에 사용하는 변수에 개입이 발생하면 해당 예측 모델로 목적을 달성하기 어려움
    • 목적에 문제가 되지 않더라도 쓸모없는 경우가 많음
      • ex) 제품의 매출 또는 사용량의 증대를 목표로 하는 매출 예측 머신러닝 모델
    • 의미없는 결론을 내릴 수도 있음
      • ex) 높은 매출은 높은 요금과 연관되어 있음

     

    1.4 연관관계와 인과관계

    • 분석단위 : 개입(처치)하려는 대상
      • 새로운 제품이 유저 잔존에 미치는 영향을 분석할 때 → 사람(유저)
      • 여러 회사의 크리스마스 기간의 판매량 증가를 분석할 때   회사
      • 매출이 가장 좋은 시점이 언제인지 분석할 때 → 시점

     

    1.4.1 처치의 결과

    • 처치 : 구하려는 효과에 대한 개입

    (예시)

    가격할인이 판매량에 미치는 영향 파악

    _ 다 믾이 판매해 얻는 이익이 더 저렴하게 판매해 얻는 손실을 상쇄할 때, 가격을 할인함녀 좋다는 의사결정을 할 수 있음 

    (한 회사가 제품의 가격을 할인했다면 그렇지 않았을 때보다 얼마나 더 많이 판매했을지 대답할 수 있어야 함)

    • 목표 : 할인 여부(1 : 할인O / 0 : 할인X)가 주간 판매량에 미치는 효과 파악

     

    1.4.2 인과추론의 근본적인 문제

    • 동일한 실험 대상이 '처치'를 받은 상태와 받지 않은 상태를 동시에 관측할 수 없다는 점
    • 반사실 상황을 비교함으로써 효과 파악

     

    1.4.3 인과모델

    • 인과모델 : 화살표(←)로 표시하는 일련의 할당 메커니즘. 인과관계의 비가역성을 나타내기 위해 등호(=) 사용X 
      • u : 모델 외부의 변수를 나타냄
        • 더 많은 변수를 사용해 모델링하려면 u에서 변수를 꺼내서 명시적으로 인과모델에 포함시키면 됨
      • f : 한 변수를 다른 변수에 매핑하는 함수
    • 통계학에서의 외생변수, 내생변수
      • 외생변수 :  관측되지 않은 (시스템 내에 포함되지 않은) 어떠한 다른 변수에도 영향을 받지 않는 변수
      • 내생 변수 : 관측되지 않은 (시스템 내에 포함되지 않은) 어떤 요인에 의해 영향을 받는 변수
    $ BusinessSize ← f_{s}(u_{s}) $

     

    $ IsOnSale ← f_{t}(BusinessSize, u_{t}) $

     

    $ AmountSold ← f_{y}(IsOnSale, BusinessSize, u_{y}) $
    • BusinessSize 는 처치(IsOnSale)와 결과(AmountSold) 모두의 공통원인이 됨

     

    1.4.4 개입

    • 개입 : 인과모델이 있으면 해당 모델을 고치고 개선해서 인과적 질문의 답을 찾아볼 수 있음
      • do(.) 연산자를 활용해 나타낼 수 있음
        • 관측된 데이터에서 얻을 수 없는 인과 추정량을 정의하는 데 사용함
        • 구하려는 인과 추정량을 분명하게 표현하는 데 사용할 수 있는 이론적 개념
        • 식별 : 인과 추정량에 대한 이론적 표현에서 직접 관측할 수 없는 부분을 제거하기 위한 일련의 과정 
        • ex)  do(T = t0)
          '처치를 t0로 설정한다면 결과 Y에 어떤 일이 일어날까?' 라는 질문에 답하는 사고 실험
          T에 개입해서 어떤 일이 일어날지를 추론하고 싶을 때 사용
    • 기댓값과 조건부 기댓값
      • 기댓값 ( E[X] ) : 평균이 추정하려는 모집단값. X의 표본평균으로 근사될 수 있음
      • 조건부 기댓값 ( E[Y | X=x] ) : X=x로 주어졌을 때 Y에 대한 기댓값을 나타냄. X=x일 때 Y의 평균으로 근사될 수 있음
    $ E[AmountSold | IsOnSale = 1] ≠ E[AmountSold | do(IsOnSale = 1)] $
    • 가격을 할인한 회사의 판매량에 대한 조건부 기댓값과 할인하도록 통제(개입)한 회사의 판매량에 대한 조건부 기댓값은 다름
    • 선택개입의 관점
      • 선택 측면에서 할인이 조건으로 주어질 때는 실제로 가격을 할인하기로 선택한 회사들의 하위 표본 판매량을 측정함
      • do(IsOnSale) 개입이 조건으로 주어질 때는 모든 회사가 가격을 할인하도록 통제한 다음에 전체 표본에서 판매량을 측정함

     

    1.4.5 개별 처치효과 (ITE : Individual treatment effect)

    do(.) 연산자를 사용하면, 개별 실험 대상 i에 처치가 결과에 미치는 영향인 '개별 처치효과'를 표현할 수 있음

    $ \tau_{i} = Y_{i} | do(T=t_{1}) - Y_{i} | do(T=t_{0}) $

     

    $ \tau_{i} = AmountSold_{i} | do(IsOnSale=1) - AmountSold_{i} | do(IsOnSale=0) $

     

     

    1.4.6 잠재적 결과

    do(.) 연산자를 사용하면,  반사실 또는 잠재적 결과도 정의할 수 있음

    • Y_0i : 실험대상 i가 처치받지 않은 잠재적 결과
    • Y_1i : 실험대상 i가 처치받은 잠재적 결과
    • 사실적 결과 : 관측할 수 있는 한 가지 잠재적 결과
    • 반사실적 결과 : 관측할 수 없는 다른 한 가지 결과
      • ex) 실험대상 i가 처치 받은 후 어떤 일이 일어나는지 사실적 결과 Y_1i는 관측할 수 있음
        반대로 실험대상 i가 처치 받지 않으면 어떤 일이 일어나는지 반사실적 결과 Y_0i는 관측할 수 없음
    $ \tau_{i} = Y_{1i} - Y_{0i} $
    • 이렇게도 잠재적 결과에 따라 실험대상 i의 인과 효과를 정의할 수 있음

     

    1.4.7 일치성 및 SUTVA

    앞의 식에 숨겨진 가정 두 가지

    가정1.  잠재적 결과가 처치와 일치성이 있어야 함

    • Ti = t일 때 Yi(t) = Y
    • T로 지정된 처치 외에 숨겨진 여러 가지 형태의 처치는 존재하지 않는다는 뜻
    • 일치성 가정이 위배되는 경우
      • 처치를 여러번 했는데도 그 중 일부만 고려한 경우
      • 처치가 잘못 정의된 경우
        → 해결 방법 : 분석 시 처치에 대한 모든 버전을 포함해야 함

    가정2. 상호 간섭 없음 또는 SUTVA

    • 하나의 실험대상에 대한 효과는 다른 실험대상의 영향을 받지 않음
      • SUTVA 가정이 위배되는 경우
        • 파급효과 또는 네트워크 효과가 있을 경우
          → 다른 대상에서 발생하는 효과를 포함하도록 처치효과의 정의를 확장
          → 더 유연한 모델을 사용해 처치효과 추정

     

    1.4.8 인과 추정량

    잠재적 결과 중 하나만 관측할 수 있으므로 개별 처치효과(\tau_i)를 알 수 없음!

    데이터에서 학습할 수 있는 인과 추정량 3가지

    • 평균 처치효과 (ATE : Average Treatment Effect)
      : 처치 T가 평균적으로 미치는 영향을 나타냄
      : 개별 처치 효과를 알 수 없기 때문에 실제로 이 값을 계산할 수는 없음
    $ ATE = E[Y_{1i} - Y_{0i}] $
    • 실험군에 대한 평균 처치효과 (ATT : Average Treatment Effect on the treated)
      : 처치 받은 대상에 대한 처치효과
      : 처치 받은 대상을 조건으로 하므로 Y_0i는 항상 관측되지 않지만, 이론적으로는 잘 정의될 수 있음
    $ ATT = E[Y_{1i} - Y_{0i} | T = 1] $
    • 조건부 평균 처치효과 (CATE : Conditional Average Treatment Effect)
      : 변수 X로 정의된 그룹에서의 처치효과
      : 어떤 유형의 실험 대상이 개입에 더 잘 반응하는지 알 수 있어서 개인화에 매우 유용함
      : 처치함수가 연속형일 때 인과추정량을 정의 가능.
        편도함수를 이용해 처치가 조금 증가할 때 E[Yi]가 얼마나 변화할 것으로 기대하는지 나타낼 수 있음
    $ CATE = E[Y_{1i} - Y_{0i} | X=x] $

     

    1.5 편향

    편향이란, 인과관계와 연관관계를 다르게 만드는 요소

    - 연관관계는 단순히 처치를 한 경우의 평균과 처치를 하지 않은 경우의 평균 간 차이로 측정되지만

    - 인과관계는 모두 처치를 했다고 개입(가정)했을 때의 평균과 모두 처치를 하지 않았다고 개입(가정)했을 때의 평균 간 차이로 측정됨

    문제는 데이터에서 추정하는 수치가 찾으려는 인과 추정량과 일치하지 않는다는 것!

    • E[Y|T=0]를 사용해 E[Y0]를 추정하고, E[Y|T=1]를 사용해 E[Y1]를 추정함 
      즉, E[Yt]를 찾을 때 E[Y|T=t]를 추정하게 되는데
      두 값이 일치하지 않는다면,
      처치 t를 받은 실험 대상의 평균 결과인 E[Y|T=t]는 추정하고 싶은 E[Yt]의 편향 추정량이 됨
    • 추정량이 추정하려는 매개변수와 다른 경우 추정량이 편향되었다고 표현함
    $ Bias = E[\hat\beta - \beta] $

     

    편향이 발생하는 이유는 교란( confounding) 때문

    결국 처치로 인해 결과가 얼마나 달라졌는지 결정하려면 처치를 한 실험군과 처치를 하지 않은 대조군이 서로 비슷해야 함.

    즉, 실험군과 대조군은 교환 가능해야 함

     

    1.6 인과효과 식별하기

    식별이란, 관측 가능한 데이터에서 인과 추정량을 찾아내는 방법

    인과적 식별은 편향을 없애는 과정
    즉, 잠재적 결과를 사용해 연관관계를 인과관계와 동일하게 만드는 데 무엇이 필요한지 설명할 수도 있음

    • E[Y0 | T=0] = [Y0 | T=1] 이라면, 연관관계는 인과관계가 됨
      • 처치와 관계없이 대조군과 실험군이 비교 가능함을 말함
      • 실험군과 대조군이 처치에 유사하게 반응하면, 평균의 차이가 평균 인과효과가 됨
        • 실험군과 대조군이 서로 교환 가능하다면 데이터에서 관측할 수 있는 수치로 인과관계를 표현하는 일이 수월해짐

     

    1.6.1 독립성 가정

    교환 가능성은 인과추론의 핵심 가정

    (Y0, Y1) ⊥ T : 독립성 가정 → 잠재적 결과가 처치와 독립적이라고 가정

    E[Y0 | T]

    • 처치가 잠재적 결과에 대한 어떠한 정보도 제공하지 않음을 의미

     

    1.6.2 랜덤화와 식별

    인과추론 문제의 두 단계

    • 식별 : 관측 가능한 데이터로 인과 추정량을 표현하는 방법을 알아내는 단계
    • 추정 : 실제로 데이터를 사용해 앞서 식별한 인과 추정량을 추정하는 단계

    랜덤화 : 무작위로 처치를 배정하는 방법

    • 외부변수 ut가 사라짐
    • 잠재적 결과 및 어떤 변수와도 독립적이게 됨

    식별 : 편향을 제거하고 실험군과 대조군을 비교할 수 있게 만드는 방법을 찾아내서 눈에 보이는 모든 차이를 처치에 따른 효과로 돌리도록 하는 과정

    • 식별은 데이터 생성 과정을 알거나 기꺼이 가정할 수 있는 경우에만 가능함
    • 처치가 어떻게 배정되었는지를 알 수 있을 때 식별이 가능함
    728x90

    댓글