1.Potenial Outcomes Framework
定义:
X
X
X: 协变量
T
T
T:T=1干预组,T=0对照组
Y
Y
Y:observed outcome观测结果
Y
0
,
Y
1
Y_0,Y_1
Y0?,Y1?:potential outcome潜在结果,如果接受干预T=1或者T=0时的潜在结果
E
(
Y
0
)
,
E
(
Y
1
)
{E}(Y_0),{E}(Y_1)
E(Y0?),E(Y1?):潜在结果的均值,如果所有人接受干预T=1(或者T=0)的均值 ATE(average causal treatment effect) :
Δ
=
μ
1
?
μ
0
=
E
(
Y
1
)
?
E
(
Y
0
)
\Delta = \mu_1-\mu_0 = {E}(Y_1) - {E}(Y_0)
Δ=μ1??μ0?=E(Y1?)?E(Y0?)
2.Observation Studies
??针对某个样本无法同时获得T=1和T=0的结果,样本的潜在结果Y可以写为:
Y
=
Y
1
T
+
Y
0
(
1
?
T
)
Y = Y_1T + Y_0(1-T)
Y=Y1?T+Y0?(1?T)。通常情况下是无法从观测数据直接得到ATE的。由于confounders的存在,T=1和T=0组无法直接比较,导致相关性
≠
\neq
?=因果性,相关性可由观测结果得到,因果性即为需要计算的ATE。
相关性:
E
(
Y
∣
T
=
1
)
?
E
(
Y
∣
T
=
0
)
E(Y|T=1)-E(Y|T=0)
E(Y∣T=1)?E(Y∣T=0)
因果性:
E
(
Y
1
)
?
E
(
Y
0
)
E(Y_1)-E(Y_0)
E(Y1?)?E(Y0?)
2.1 相关性
≠
\neq
?=因果性举例
??一组观测数据发现穿鞋睡觉和醒来头痛有强相关性,这明显不符合常识:
E
(
Y
∣
T
=
1
)
?
E
(
Y
∣
T
=
0
)
=
E
(
头
痛
=
1
∣
穿
鞋
睡
觉
=
1
)
?
E
(
头
痛
=
1
∣
穿
鞋
睡
觉
=
0
)
E(Y|T=1)-E(Y|T=0)=E(头痛=1|穿鞋睡觉=1)-E(头痛=1|穿鞋睡觉=0)
E(Y∣T=1)?E(Y∣T=0)=E(头痛=1∣穿鞋睡觉=1)?E(头痛=1∣穿鞋睡觉=0)
??但是穿鞋睡觉和头痛相关,实际上是由confounder喝酒引起的。从下图中可以看到,T=1穿鞋睡觉组和T=0组喝酒人数占比相差很大。所以,要得到穿鞋睡觉对头痛的因果效应(ATE),需刨除喝酒影响,使得两组喝酒人数占比一致,这样两组数据结果才是可比的。
2.2 相关性
≠
\neq
?=因果性证明
Y
 ̄
(
1
)
\overline Y^{(1)}
Y(1)为观测到的T=1的所有样本均值
Y
 ̄
(
1
)
=
E
(
Y
∣
T
=
1
)
=
E
(
Y
1
T
+
Y
0
(
1
?
T
)
∣
T
=
1
)
=
E
(
Y
1
∣
T
=
1
)
(1)
\overline Y^{(1)} = {E}(Y|T=1) = {E}( Y_1T + Y_0(1-T)|T=1) = {E}( Y_1|T=1) \tag1
Y(1)=E(Y∣T=1)=E(Y1?T+Y0?(1?T)∣T=1)=E(Y1?∣T=1)(1) 但是
E
(
Y
1
∣
T
=
1
)
≠
E
(
Y
1
)
{E}(Y_1|T=1) \neq {E}(Y_1)
E(Y1?∣T=1)?=E(Y1?) ,因为
E
(
Y
1
)
{E}(Y_1)
E(Y1?)是所有样本接受干预的潜在结果的均值。
E
(
Y
1
∣
T
=
1
)
?
E
(
Y
0
∣
T
=
0
)
=
E
(
Y
1
?
Y
0
∣
T
=
1
)
?
A
T
T
+
E
(
Y
0
∣
T
=
1
)
?
E
(
Y
0
∣
T
=
0
)
?
b
i
a
s
≠
Δ
≠
E
(
Y
1
)
?
E
(
Y
0
)
(2)
\begin{aligned} {E}(Y_1|T=1)-{E}(Y_0|T=0) &= \overbrace{ {E}(Y_1-Y_0|T=1)}^{ATT} +\overbrace{ {E}(Y_0|T=1) - {E}(Y_0|T=0)}^{bias} \\ &\neq \Delta \neq {E}(Y_1) - {E}(Y_0) \tag2 \end{aligned}
E(Y1?∣T=1)?E(Y0?∣T=0)?=E(Y1??Y0?∣T=1)
?ATT?+E(Y0?∣T=1)?E(Y0?∣T=0)
?bias??=Δ?=E(Y1?)?E(Y0?)?(2)
3.RCT随机实验
和观测数据比,RCT实验数据符合一下条件:
(
Y
0
,
Y
1
)
⊥
T
??
?
??
X
⊥
T
{(Y_0,Y_1)} \bot {T} \iff X \bot T
(Y0?,Y1?)⊥T?X⊥T
Y
1
⊥
T
{Y_1} \bot {T}
Y1?⊥T表示对于观测到T=0的样本,如果接受干预,其潜在结果和T=1的样本一致。即是否接受干预对潜在结果无影响(直观理解是由于
T
⊥
X
T \bot X
T⊥X,T=1和T=0两组人群可比,所以施加干预得到的潜在结果一致):
E
(
Y
1
∣
T
=
1
)
=
E
(
Y
1
∣
T
=
0
)
=
E
(
Y
1
)
(3)
{E}(Y_1|T=1) = {E}(Y_1|T=0)= {E}(Y_1) \tag3
E(Y1?∣T=1)=E(Y1?∣T=0)=E(Y1?)(3)
E
(
Y
1
∣
T
=
0
)
{E}(Y_1|T=0)
E(Y1?∣T=0)是反事实对照结果,表示如果未干预组样本接受干预的潜在结果。由于一致性假设(将在下面阐述),T=1的潜在结果和实际观测结果一致,即
E
(
Y
1
∣
T
=
1
)
=
Y
 ̄
(
1
)
E(Y_1|T=1)=\overline Y^{(1)}
E(Y1?∣T=1)=Y(1) 由于3式成立,
Y
 ̄
(
1
)
?
Y
 ̄
(
0
)
=
Δ
=
E
(
Y
1
)
?
E
(
Y
0
)
\overline Y^{(1)}-\overline Y^{(0)} = \Delta = {E}(Y_1) - {E}(Y_0)
Y(1)?Y(0)=Δ=E(Y1?)?E(Y0?)
4. 获得ATE无偏估计的假设
4.1 Unconfoundedness
- Positivity
a.
5. Adjustment
adjustment by regression modeling
(
Y
0
,
Y
1
)
⊥
T
∣
X
{(Y_0,Y_1)} \bot {T|X}
(Y0?,Y1?)⊥T∣X 如果
X
X
X包括所有confounders:
E
(
Y
∣
T
,
X
)
=
α
0
+
α
t
T
+
α
x
X
\mathbb{E}(Y|T,X) = \alpha_0+\alpha_tT+\alpha_xX
E(Y∣T,X)=α0?+αt?T+αx?X
E
E
(
Y
∣
T
=
1
,
X
)
)
=
E
(
E
(
Y
1
∣
T
=
1
,
X
)
)
=
E
(
E
(
Y
1
∣
X
)
)
=
E
(
Y
1
)
{E}{E}(Y|T=1,X)) ={E}({E}(Y_1|T=1,X))= E({E}(Y_1|X))= {E}(Y_1)
EE(Y∣T=1,X))=E(E(Y1?∣T=1,X))=E(E(Y1?∣X))=E(Y1?) 给定
X
X
X条件下
T
T
T和
Y
1
Y_1
Y1?垂直,可以理解为取某个X值时,组里X都是一样,结果差异不由confounders导致,阻断了X->Y的因果路径。
Δ
=
E
(
Y
1
)
?
E
(
Y
0
)
=
E
(
Y
1
∣
T
=
1
,
X
)
)
?
E
(
Y
1
∣
T
=
0
,
X
)
)
=
α
t
\Delta = {E}(Y_1)-{E}(Y_0) = {E}(Y_1|T=1,X)) - {E}(Y_1|T=0,X)) = \alpha_t
Δ=E(Y1?)?E(Y0?)=E(Y1?∣T=1,X))?E(Y1?∣T=0,X))=αt?
|