인과추론의 개념
- 본 글에서는 연관관계와 인과관계의 차이를 기준으로 설명하였음.
- 연관관계: 두 개의 수치나 확률 변수가 같이 움직이는 것이고, 인과관계는 한 변수의 변화가 다른 변수의 변화를 일으키는 것을 의미함
- 즉, 인과추론은 연관관계로부터 인과관계를 추론하고 언제, 그리고 왜 서로 다른지 이해하는 과학임
인과추론의 목적(인과관계가 필요한 이유)
- 원인-결과의 관계를 명확하게 알아서 원하는 결과를 얻기 위해
처치와 결과
- 처치: 구하려는 효과에 대한 개입을 나타낼 때 사용하는 용어
- 책의 예제에서는 가격할인 여부 ‘is_on_sale’이 이에 해당함.
- Notation:
- 실험 대상 i의 처치 여부:
- 1: 실험 대상 i가 처치 받은 경우, 0: 실험 대상 i가 처치 받지 않은 경우
- Notation:
- 책의 예제에서는 가격할인 여부 ‘is_on_sale’이 이에 해당함.
- 결과: 우리가 영향을 주려는 변수
- 책의 예제에서는 주간 판매량 ‘weekly_amount_sold’이 이에 해당함
인과 추론의 근본적인 문제
- 동일 대상의 두 상황을 동시에 관측할 수 없음
인과 모델
- 인과 모델(causal model)은 화살표(←)로 표시하는 일련의 할당 메커니즘임
- T←f_t(u_t)
- Y←F_y(T,u_y)
- 여기서 u_t는 모델링 하지 않는 변수를 의미함. 모델에 포함된 변수로는 아직 설명되지 않은 변수의 모든 변동을 설명함.
- 즉, 첫번째 식에서 모델링 하지 않는 변수 집합 U_t(외부변수)가 함수 f_t를 통해 처치변수 T를 유발하는 원인이 됨
- 그러나 T는 다른 변수 집합 u_y와 함께 f_y를 통해 결과를 유발함. 해당 수식에서 u_y는 결과가 단순히 처치 변수만으로 결정되지 않음을 나타냄.
개입
- 개입: 특정 변수 X의 값을 강제로 설정함으로써 발생하는 결과 Y의 변화를 측정하는 것을 의미함. 이를 수학적으로 나타내면, do-연산자를 사용함
- 책에서는 do(.) 연산자를 통해 연관관계와 인과관계가 다른 이유를 한눈에 알 수 있음
- 일반적인 기댓값 E(AmountSold|IsOnSales=1)과 E(AmountSold|do(IsOnSales=1)]과는 다름
- E(AmountSold|IsOnSales=1) 은 가격을 할인한 회사에 대해 조사하고, E(AmountSold|do(IsOnSales=1))은 모든 회사가 가격을 할인하도록 통제한 다음에 전체 표본에서 판매량을 측정함.
- 개입의 효과를 관찰 데이터만으로 정확하게 추정할 수 있는지 여부를 판단하는 개념
개별 처치 효과
- do(.) 연산자를 사용하면 개별 실험 대상 i에 처치가 결과에 미치는 영향을 의미함
잠재적 결과
“처치가 t인 상태에 있을 때, 실험 대상 i의 결과는 Y가 될 것이다”
- Y(1): 처치 X=1일 때의 결과
- Y(0):처치 X=1일 때의 결과
즉, 실제로 관찰되는 결과 Y는 Y(1)과 Y(0) 중 하나이며, 다른 하나는 관찰되지 않은 반실재적 결과임.
일치성 및 SUTVA
- 일치성 가정: 잠재적 결과가 처치와 일치성이 있어야함
- 즉, T_i=t일 때 Y_i(t)=Y임. 즉, T로 지정된 처치 외에 숨겨진 여러 가지 형태의 처치는 존재하지 않음.
- 일치성이 위배될 수 있는 경우
- 처치를 여러 번 했는데도 그 중 일부만 고려했다면, 가정은 위배될 수 있음
- 처치가 잘못 정의된 경우에도 일치성 가정이 위배될 수 있음
- 상호 간섭 없음, 또는 SUTVA
- 하나의 실험 대상에 대한 효과는 다른 실험 대상의 영향을 받지 않음. 파급 효과 또는 네트워크 효과가 있는 경우, 이러한 가정은 위배될 수 있음
인과 추정량
평균 처치 효과 : 처치가 있을 때와 없을 때의 결과 차이를 평균적으로 나타냄
ATE = E[Y(1)] - E[Y(0)]
Y(1): 처치를 받은 경우의 잠재적 결과, Y(0) : 처치를 받지 않은 경우의 잠재적 결과
E[Y(1)]: 전체 집단에서 Y(1)의 기대값
E[Y(0)]: 전체 집단에서 Y(0)의 기대값
- 평균 처치 효과는 처치 T가 평균적으로 미치는 영향을 나타냄. 실험 대상에 따라 더 많거나 적은 영향을 받을 수 있으나, 개별 대상에 미치는 영향을 알 수 없음 . 데이터에서 ATE를 추정하고 싶다면 기댓값을 표본 평균으로 대체할 수 있음
실험군에 대한 평균 처치 효과
처치 받은 대상에 대한 처치 효과
즉, ATT는 처치를 받은 집단에서의 처치 효과에 초점을 맞추며, 전체 모집단이 아닌 처치를 실제로 받은 사람들만을 대상으로 함.
조건부 평균 처치 효과
CATE(X=x)=E[Y(1)−Y(0)∣X=x]
- 변수 X로 정의된 그룹에서의 처치효과
- 조건부 평균 처치효과는 어떤 유형의 실험 대상이 개입에 더 잘 반응하는지 알 수 있어서 개인화(Personalization)에 매우 유용함
인과효과 식별하기
식별: 관측 가능한 데이터에서 인과 추정량을 찾아내는 방법
여기서 인과적 식별은 편향을 없애는 과정으로는 볼 수 있음. 즉, 잠재적 결과를 사용하여 연관관계를 인과관계와 동일하게 만드는 데 무엇이 필요한지 설명할 수도 있음.
만약 E[Y_0|T=0] = E[Y_0|T=1]이라면 연관관계는 인과관계가 됨. 수학적으로 보면 편향은 사라지고 실험군의 효과만 남음.
또한 실험군과 대조군이 처치에 유사하게 반응하면, 평균의 차이가 평균 인과효과가 됨.
독립성 가정
- 처치가 잠재적 결과에 관한 어떠한 정보도 제공하지 않았음을 의미함
- 즉, 처치 여부와 관계없이 실험군과 대조군 모두 서로 비교 가능하고 구별할 수 없다는 뜻
랜덤화와 식별
<앞에서 말했던 방법>
- 식별: 관측 가능한 데이터로 인과 추정량을 표현하는 방법을 알아내는 단계
- 추정: 실제로 데이터를 사용하여 앞서 식별한 인과 추정량을 추정하는 단계
랜덤화 : 동전 던지기로 실험 대상에 처치를 배정하는 것과 같음. 랜덤화에서는 실험 대상에 처치가 무작위로 이루어지므로 잠재적 결과는 물론이고 어떤 변수와도 독립적이 됨. 즉, 랜덤화는 독립성 가정을 거의 강제로 만족하게 함.
예시로 랜덤화를 해서 두 개의 잠재적 결과 중 하나를 실현시킨 다음, 실현되지 않은 잠재적결과를 제거하여 군더더기를 제거하였다.
여기서 실험군과 대조군의 결과 차이는 평균 인과효과 라고 볼 수 있다.
처치 이외에 다른 차이를 발생시키는 요인이 없기 때문임. 따라서 관측되는 모든 차이는 처치 때문에 발생하며 편향이 없음을 의미함.
식별은 데이터 생성 과정을 알거나 기꺼이 가정할 수 있는 경우에만 가능하다는 점이 매우 중요함
요약
- 잠재적 결과: ‘특정 처치 T=t를 받았을 때 관측할 수 있는 결과’
- 굉장히 중요한데 이유는, 실험군과 대조군이 처치 이외의 이유 때문에 서로 다르다면 두 그룹 간의 비교 시 실제 인과 효과가 아닌 편향된 추정값이 산출됨.
- 인과효과 식별하기: E[Y_0|T=0] = E[Y_0|T=1]이라면 연관관계는 인과관계가 됨
- 독립성 가정: 처치가 잠재적 결과에 관한 어떠한 정보도 제공하지 않았음을 의미함
- 즉, 처치 여부와 관계없이 실험군과 대조군 모두 서로 비교 가능하고 구별할 수 없다는 뜻
- 인과 추론을 적용할 때 필요한 몇 가지 주요 가정:
- 위의 독립성 가정
- 결과 Y를 다음 식처럼 잠재적 결과 간의 전환 함수로 정의할 때, 한 실험 대상의 처치가 다른 대상의 결과에 영향을 미치지 않아야 하며 (SUTVA) 모든 버전의 처치가 고려 되었다고 가정함. (일치성 가정)
→ 인과 추론에는 항상 가정이 필요하다는 걸 늘 염두에 두면 좋음. 가지고 있는 통계적 추정량을 바탕으로 알고 싶은 인과 추정량을 구하려면 가정이 필요함