文章 “Stable learning establishes some common ground between causal inference and machine learning” 深入探讨和总结了因果推理在机器学习取得的关注,并对 “稳定学习” 提出了系统性分析和展望。文章认为,机器学习和因果推理之间应该形成共识,而稳定学习正在向实现这一目标的方向迈进。
因果推理近年来在机器学习领域引起关注,它被定位作为一个独特的研究领域,可以将机器学习从预测建模扩展到干预和决策。因果关系的观点可以改善机器学习模型。稳定学习是因果推理与机器学习的共识,它弥补了因果推理的精确建模与机器学习黑盒之间的间隙。
引言
机器学习的预测精度和效率是过去工作的目标,错误预测的潜在风险就显得不是很重要。对于图像分类和点击率预测等问题,模型在频繁更新,错误的代价也不会很高,因此这些应用场景适合持续保持更新的黑盒模型。伴随机器学习进入医疗,金融和司法等高风险场景,机器学习的错误会引发巨大的风险,因此对于高风险场景,稳定性与可解释性是现在机器学习需要解决的紧迫问题。
稳定性
根据观察到的特征,使用在训练数据集上估计的模型来预测未来的结果值是一个标准的机器学习问题。当测试数据和训练数据来自同一分布时,许多学习算法被提出并证明是成功的。然而,对于给定的训练数据分布,性能最好的模型往往是利用特征之间微妙的统计关联,这使得它们在应用于分布不同于训练数据的测试数据时,可能更容易出现预测错误。 在实际应用中,训练分布与测试分布的差异是不可避免的,这导致当机器学习算法应用于具有未知分布的不同测试环境时,性能将不稳定,从而使其不可靠。
可解释性
由于在许多应用中遇到的高度复杂性,期望机器学习算法以高精度产生人类可以依赖的预测性或规定性结果是不现实的。尤其是在高风险领域,或者在难以量化决策后果的环境中,需要一种共同的语言,让算法和人类能够理解和合作。目前大多数现成的机器学习模型都是黑盒模型:算法过程和预测结果都不容易向人类解释。尽管存在一系列关于可解释人工智能的研究,但大多数研究试图部分解释黑匣子模型,而不是设计固有的可解释模型。
公平性
随着机器学习在社会问题中的应用,公平问题引起了研究人员和公众的关注。主流机器学习算法可能会放大数据中存在的偏差,从而导致 “不公平” 的结果。例如,COMPAS是美国法院广泛使用的工具,用于判断被告未来是否会犯罪。然而,据报道,黑人被告的假阳性率高于白人被告,这一发现被广泛解释为对黑人被告不公平。如果没有充分解决公平问题,机器学习可能会对社会结果产生负面影响,这只是其中之一。在后面内容中,作者讨论此类风险的一些关键驱动因素,以及因果推理思想解决这些风险的机遇和挑战。然后,介绍了稳定学习的发展,目的是找到因果推理和机器学习之间的共同点,以及它对解决可解释性和公平性问题的意义。
虚假相关性是风险的关键来源
以有监督学习为例,模型学习输入变量和输出变量之间的线性或非线性相关关系。也就是说,相关性是这些学习算法的统计基础。数据中的相关性可能因各种原因而产生。上图是产生相关性的三种方式。
- Y是结果变量;
- S是对应于Y的直接原因的输入变量(混杂因子,confounders);
- V是另一个可能与Y有虚假相关性的输入变量;
- Se是一个选择变量,它影响着:数据集中是否包含具有特定V和S的样本;
- 图a反映:S和Y之间的因果关系(Causal relationship)。
- 图b反映:由S引起的V和Y之间的虚假相关性(Spurious correlation)。
- 图c反映:基于V和S的选择(Se)会导致所选数据集中V和(S,Y)之间的虚假相关性。
因果关系Causality:当两个变量中的一个是另一个变量的直接或间接原因时,它们之间存在关联,如图a所示。例如,天气(即S)影响作物产量(Y),因此一个季节的天气与该季节的作物产量相关。这种类型的关系反映了变量之间的内在和普遍依赖性,并且在不同的设置中保持不变。
混淆性Confounding:当两个变量有共同的原因(即混杂因素)时,它们将相互关联,如图b所示。例如,患者的状况(即S,混杂因素),尤其是他疾病的严重性,是ICU治疗(即V)和恢复率(Y)的常见原因。如果我们直接测量ICU治疗和恢复率之间的相关性,而没有适当地平衡患者的情况,我们将得到一个错误的结论,即ICU治疗导致较低的恢复率(一种虚假的相关性)。这种(无条件的)相关性通常很难解释。同时,由于相关性的强度取决于S和V之间的相关性,因此当特征的联合分布在不同环境中时,其稳定性较弱。
数据选择的偏差Data selection bias 数据选择偏差是常见的,甚至在实际情况下不可避免,因为数据的选择方式与目标人群不同。典型的情况如图c所示,仅分析选择变量Se值较高的观测数据将导致V、S和Y之间的虚假相关性。我们可能会收集一个训练数据集,其中大多数阳性样本描述的是草地上的狗;草的特征(即V)将与狗的特征(S)虚假相关,从而导致草的特征与“狗”标签(Y)虚假相关。考虑到数据选择偏差通常是无意中产生的,这种虚假相关性可能很难提前识别。如果训练数据分布与测试数据不同,预测将不准确。
在这三种产生相关性的方式中,只有因果关系产生的相关性反映了变量之间的内在依赖性;另外两种类型是对特征的联合分布和数据收集过程敏感的虚假相关性。然而,在当今的机器学习中,黑盒模型甚至没有试图区分产生这些相关性的三种不同方式。因此,它们的预测性能在很大程度上取决于测试分布偏离训练分布的程度,从而导致在不同测试分布下的性能不稳定。为了从根本上解决稳定性、可解释性和公平性的风险,我们需要在机器学习框架中接受并强调因果关系。
预测建模中因果关系的挑战和机遇
因果模型与生成数据的基本过程相匹配。在下图中,我们展示了随着时间的推移生成数据集的物理过程(随着时间的推移,生成用于预测建模的数据集的物理过程,a:图像分类;b:推荐系统)。 根据预测问题的本质,分析师试图使用结果前的变量来预测未来和看不见的结果。在产品推荐系统中,以其属性为特征的用户对具有不同属性的产品表现出不同程度的兴趣,并最终生成由其属性和产品属性同时引起的购买行为。在图像分类问题中,首先在数据集中选择一张照片,然后图像注释员观察照片内容并提取特征,最后根据他/她对视觉内容的理解,用类别标签对照片进行注释。因此,图像的特征是原因,其标签是结果。如果将生成过程与环境的相关特征一起描述,则该过程基本上是稳定的。这可能成为机器学习研究人员将因果关系纳入机器学习预测问题的重要动机。
使用观测数据估计因果效应需要强有力的假设。最流行的方法之一可以描述如下:
- 首先,研究人员观测潜在的混杂因素S,并假设在对观测到的混杂因素调整后,处理方式独立于潜在结果。这种假设被称为无混淆性(unconfoundedness);
- 第二个假设是 stable unit treatment value assumption(即特定单位下的响应仅取决于其处理方式,而不取决于其他单位的处理方式);
- 第三是叠加假设(overlap),以观察到的混杂因素的每个可能为条件,所有单元分配到每个处理条件的概率均非零值。
考虑药物对病人的治疗,
W
i
=
1
W_{i}=1
Wi?=1表示对第
i
i
i个病人采用指定计量的药物A,
Y
i
(
W
=
1
)
Y_{i}(W=1)
Yi?(W=1)表示对第
i
i
i个病人采用指定剂量的药物A的potential outcome,病人的年龄,性别,临床表现是病人的其他特征(假设年龄性别是pre-treatment变量,临床表现是post-treatment变量)。
pre-treatment variable:不受treatment影响的variable; post-treatment variable:受treatment影响的variable,一些中间变量; treatment assignment或treatment:治疗方式,不同的剂量为不同的treatment;
为了估计治疗的效果即treatment effect,我们需要遵循以下假设:
- 1.unconfoundedness:给定pre-treatment后,treatment assignment与potential outcome相互独立,即不会有除了pre-treatment以外的混杂因子S(confounder);
无混淆假设表明:treatment不受potential outcome影响(treatment是自变量,potential outcome是因变量) - 2.stable unit treatment value assumption:一是目标对象的独立性,即一个病人的outcome不会影响另一个病人;二是treatment的唯一性,比如指定剂量的药物A对每个病人带来的outcome是唯一的;
即:个体和个体之间没有相互关系(a的outcome只和a的treatment有关,和b的treatment无关);对1个unit,1个treatment只会有1种outcome,不存在某个treatment能使1个unit产生多个不同的outcome。 - 3.overlap:对任何的pre-treatment变量
X
X
X,treatment都是不确定的:
P
(
W
=
w
∣
X
=
x
)
>
0
P(W=w|X=x)>0
P(W=w∣X=x)>0
注意,我们并不是说S就一定是预测建模的输入,S只是被定义为直接影响Y的因素。
不幸的是,这些假设依然是不稳定的,在大规模、多处理的随机对照试验之外,当存在许多可能的处理方法时,要找到相关假设能够被证明是合理的场景,会是一个极大的挑战。同时,由于所谓的“因果推理的基本问题”,我们没有观察到同时处理和未处理的单元,存在数据缺失问题,难以确定因果模型的有效性。
一般来说,如果可以识别和估计真正的因果结构(即,如果可以发现数据生成过程,比如上图a,像人一样去思考标注图像),那么预测问题自然可以作为副产品解决。但要走这条技术路线,我们必须解决因果推理的所有挑战。 在现实的数据集中,这样做可能是不可能的。尽管如此,我们认为预测建模不需要重建真实的数据生成过程,最佳预测模型将平衡数据分布中的偏差和方差。因此,我们不需要因果推理所共有的严格目标,例如因果效应的一致性估计,即使我们没有充分解决因果推理问题所需的数据,也可以进行近似或改进。预测建模更容易的另一个原因是,预测结果的基本真实性是可用的,因此可以在测试集中定量评估模型的正确性。 因此,我们认为机器学习和因果推理之间应该建立共同点。因此,稳定学习的框架被提出并发展为实现这一目标的一种方法。
我认为:因果关系是一种工具,追求严格数学定义没有意义,重要的是取决于使用的场景
稳定学习的定位与发展
与传统的机器学习设置不同,我们不坚持测试数据集与训练数据来自同一分布的假设。给定训练集
D
e
=
(
X
e
,
Y
e
)
D^{e}=(X^{e},Y^{e})
De=(Xe,Ye),
e
∈
E
e\in E
e∈E是一个环境,其中
X
e
,
Y
e
X^{e},Y^{e}
Xe,Ye分别是特征S和结果变量Y,稳定学习的目的是在
E
E
E上学习一个预测模型。当然,若要取得进展,
E
E
E中的各环境之间必须存在一些共同的联系。从这个角度看,我们关注的是分布线性变换引起的模型泛化性问题。其中
P
e
(
Y
∣
X
)
P^{e}(Y|X)
Pe(Y∣X)不随
e
e
e变化,但
P
e
(
X
)
P^{e}(X)
Pe(X)会随
e
e
e变化。
在评估稳定学习模型的稳定性误差时,分析员无法预测所有可能的测试环境。虽然通常可以通过反复创建测试数据的非随机子样本来模拟一系列测试环境,以评估稳定性,但这在算法中引入了主观因素。我们在下图中说明了不同学习范式之间的关系。根据测试分布的学习目标,我们将学习问题分为IID学习、迁移学习和稳定学习。Acc表示精度,
α
\alpha
α是一个超参数,用于权衡不同分布测试的平均精度和方差。
最常见的情况是,假设训练和测试数据是独立且同分布的(independent and identically distributed,IID)。然而,测试分布可能会任意偏离训练分布,迁移学习(或domain adaptation,域适应)方法假设我们之前知道在测试阶段可能遇到的目标分布。近年来,域泛化问题引起了越来越多的关注。这些方法大多要求训练数据由不同的环境组成,其性能在很大程度上取决于预定义或预先确定的训练环境的多样性。
与上面提到的学习模式相比,稳定学习的目标是更现实的问题设置。一方面,我们不假设在测试分布上有任何强加的先验知识,比如IID学习或迁移学习。另一方面,我们不假设训练数据中存在多个环境,就像在域泛化问题中一样。同时,稳定学习对模型的泛化能力提出了更高的要求。学习到的模型应该在看不见的环境中平均取得良好的性能。如此高的标准给机器学习模型带来了更多的挑战,迫使我们从根本上重新思考泛化问题。
从因果关系的角度进行稳定学习
与因果推理不同的是,因果推理寻求对处理效果及其相互作用的一致估计,稳定学习的目的是学习可能更多的处理变量treatment与结果outcome之间的映射。为了从因果关系的角度解释稳定学习,我们首先考虑以下情况:
- 1.系统中不存在结果变量Y的影响变量,也就是说,结果变量不能是任何其他变量的原因;
- 2.每对
(
X
i
,
Y
)
(X_{i},Y)
(Xi?,Y)满足前面的三个假设(unconfoundedness,overlap,the stable unit treatment value assumption);
从因果推理的角度来看,稳定学习提出了一个更宏大的问题:如果我们将每个输入变量视为可迭代的treatment,将所有剩余的输入变量视为协变量,是否有一组样本权重可以实现全局协变量平衡(即全局平衡),用于处理存在的任何输入变量?如果是这样的话,样本权重集可以让我们根据特征与重加权数据结果之间的相关性,去估计每个输入特征的因果效应。
注意,全局平衡估计的因果效应可以解释为直接效应direct effect。以因果结构
Y
←
X
2
→
X
1
→
Y
Y\leftarrow X_{2}\rightarrow X_{1}\rightarrow Y
Y←X2?→X1?→Y为例,当考虑
X
1
X_{1}
X1?作为treatment时,
X
2
X_{2}
X2?作为混杂因素,因此在
X
1
X_{1}
X1?治疗组和
X
1
X_{1}
X1?对照组之间平衡
X
2
X_{2}
X2?会导致
X
1
X_{1}
X1?和
Y
Y
Y之间的相关性,作为
X
1
X_{1}
X1?对
Y
Y
Y的直接效应的估计。当考虑
X
2
X_{2}
X2?作为treatment时,
X
1
X_{1}
X1?在
X
2
X_{2}
X2?和
Y
Y
Y之间起到中介作用。在
X
2
X_{2}
X2?治疗组和
X
2
X_{2}
X2?对照组之间平衡
X
1
X_{1}
X1?消除了
X
2
X_{2}
X2?通过
X
1
X_{1}
X1?对
Y
Y
Y的影响,因此,
X
2
X_{2}
X2?对
Y
Y
Y的直接效应是
X
2
X_{2}
X2?可控制的。
为了在观察到
X
2
X_{2}
X2?和
X
1
X_{1}
X1?时进行预测,我们只需要这样做:我们不需要估计
X
2
X_{2}
X2?对
X
1
X_{1}
X1?的直接影响,这可能会因环境而异。如果我们知道
X
1
X_{1}
X1?和
X
2
X_{2}
X2?的直接影响,利用这种因果结构,即使
(
X
1
,
X
2
)
(X_{1},X_{2})
(X1?,X2?)的联合分布发生变化,我们也可以预测结果。如果
X
1
X_{1}
X1?的直接效应取决于
X
2
X_{2}
X2?的值(即如果结果模型中存在交互效应),那么
X
1
X_{1}
X1?效应的平均值取决于
(
X
1
,
X
2
)
(X_{1},X_{2})
(X1?,X2?)的联合分布,因此,在预测模型中加入这种相互作用以实现特征联合分布的稳定性是很重要的。
论文提出了一系列算法来优化样本权重以达到全局平衡。这个过程从一个为二进制输入变量设计的全局平衡损失开始,该变量可以作为正则化器轻松插入标准学习任务。结果表明,在将全局平衡损失整合到标准logistic回归模型中后,所学习的回归系数具有预测能力和因果含义。为了缓解重叠假设,特别是在小样本或高维特征空间中,将无监督表示学习模块集成到全局平衡阶段,形成原始正则化器的“深层”版本。通过引入连续变量独立性标准,将全局平衡的正则化器从二进制变量扩展到连续变量,这是学习场景中的常见设置。 通过将混杂因子平衡技术从因果推理扩展到机器学习问题,我们已经看到了改善机器学习模型稳定性的良好结果。
从统计角度看稳定学习
从形式上讲,稳定学习的优势是通过样本重新加权来实现的。因此,出现了一个自然的问题:为什么样本重新加权会提高基于相关性的模型(如线性回归)的稳定性?在不完全实现因果推理的更宏大目标的情况下,稳定的学习算法还能提高稳定性吗?
为了回答这个问题,以线性回归模型为例:
Y
=
X
T
β
1
;
p
+
β
0
+
b
(
X
)
+
n
Y=X^{T}\beta_{1;p}+\beta_{0}+b(X)+n
Y=XTβ1;p?+β0?+b(X)+n其中,
b
(
X
)
b(X)
b(X)是非线性项,
n
n
n是噪声项。假设我们能够正确估计系数
β
\beta
β并将其用于预测,该模型可以对任何样本产生一致良好的预测结果,从而在任意分布下获得稳定的性能。因此,模型的稳定性可以用
∣
∣
β
^
?
β
∣
∣
2
||\widehat{\beta}-\beta||_{2}
∣∣β
??β∣∣2?表示,其中,
β
^
\widehat{\beta}
β
?表示估计系数。
如果在训练阶段使用错误指定的模型,输入变量之间的共线性的存在可能会将一个小的错误扩大到任意大的程度。该定理和实证结果都告诉我们,通过样本重新加权来降低输入变量之间的共线性,这是全局平衡的直接效果,是提高稳定性的有效途径。比如在学习中弱化背景特征,加强物体本身特征。
在稳定学习中,因果效应的估计是达到目的的手段,而不是首要目标。
连接因果关系与机器学习的桥梁
虽然从前面两个角度来看,稳定学习算法是采用样本重加权作为提高模型稳定性的技术方法,但支持这一想法的概念是不同的。在这里,我们试图在线性回归框架内将这两个概念联系起来。当我们迭代地将每个输入变量视为稳定学习中的treatment时,我们假设其所有的混杂协变量都包含在剩余的输入变量中。在二元处理变量的情况下,学习到的样本权重最终使真正的treatment变量独立于剩余变量。将这种解释扩展到全局平衡,我们得出结论,学习的全局样本权重可以使所有输入变量相互独立。此后,当我们对加权样本进行回归时,每个输入变量的回归系数代表其对结果的部分影响,即因果效应。同样,从统计学习的角度来看,消除输入变量之间的共线性的效果往往会使输入变量独立。因此,使输入变量独立是这两种稳定学习观点的共同目标,这也为因果推理和机器学习提供了共同基础。(消除变量之间的相关性,将多组因果关系独立开)
可解释性与公平性的含义
在实际应用中,稳定性、可解释性和公平性往往是共同要求的。由于这些属性本质上与因果关系有关,因果关系激发的稳定学习可能会提供可解释性和公平性的含义。稳定学习中样本的重加权就是实现可解释性与公平性的途径。
|