开发: C++知识库 Java知识库 JavaScript Python PHP知识库人工智能区块链大数据移动开发嵌入式开发工具数据结构与算法开发测试游戏开发网络协议系统运维
教程: HTML教程 CSS教程 JavaScript教程 Go语言教程 JQuery教程 VUE教程 VUE3教程 Bootstrap教程 SQL数据库教程 C语言教程 C++教程 Java教程 Python教程 Python3教程 C#教程
数码: 电脑笔记本显卡显示器固态硬盘硬盘耳机手机 iphone vivo oppo 小米华为单反装机图拉丁

-> 人工智能 -> 计量经济学（十二）Heckman 两阶段法 -> 正文阅读

[人工智能]计量经济学（十二）Heckman 两阶段法

Heckman两阶段模型解决的是样本选择偏差（sample selection bias）的问题。我们主要从两个方面进行讲述Heckman两阶段法，最后简要介绍一下Heckman老爷子。

1. 何为样本选择偏差

样本选择偏差指的是在回归方程中估计出的参数是基于那些被选择进样本了的数据点（或者说是能够观测得到的数据点）而估计出来的，那么如果说一个数据点（观测值）是不是被选择进样本是一个外生的、纯随机的事件，那么据此得出的参数并不会有偏差（bias）——这个估计结果就不会有问题。但是事实上我们是无法避免掉内生性的，也就是说我们无法进行完全随机的抽样。

那么既然如此，就导致了样本选择偏差。比如说，Wooldridge 教材中的一个经典例子中：研究者试图估计出受教育程度以及工作经验对于女职工工资的影响。在一个753名女性的大样本中，428名女性是有工作的，所以这项研究只能在这428名有工作（有收入）的样本中展开。那么问题来了：因为我们无法观测到那325个没有工作的样本中受教育程度以及经验对于收入的影响，并且一个人选择工作或不工作并非是随机的——人们会根据潜在的收入水平、自身条件、家庭情况、年龄等等因素综合来决定是否参加工作，于是，我们仅从那428个有工作的人身上找出的统计学结果将是有偏差的，因为样本的选择并非随机及外生的。

更为具体的分析，样本选择偏差包括两种，一种为非随机性导致的样本偏差，一种为由于样本自选择导致的偏差。下面介绍一下：

1.1 样本选择偏差

样本不存在随机性就是研究人员根据自己设定的规则抽取样本，而不是随机抽样。

（参考自：学习笔记 | Heckman两阶段法介绍_Claire_chen_jia的博客-CSDN博客_heckman两阶段模型）

举例1：研究人员在研究公司治理问题时只收集了发达地区的公司作为样本。举例2：以“找熟人”为研究对象，来探讨使用社会资本对求职结果的影响。假设我们是采用采访的方式，询问自己的工作是不是通过找熟人获得的，来识别这个人是不是使用社会资本。但值得注意的是，那些具有社会资本，但不想使用，可能是高自尊心，或者是想通过自己努力来获得。我们通过采访，进而错过了这些样本，或者说我们只是圈住了那些不自尊、不努力的样本，由此我们使用一个不自尊、不努力的样本来研究社会资本的效应，由此是会高估结果的。

1.2 自选择偏差

（参考自：学习笔记 | Heckman两阶段法介绍_Claire_chen_jia的博客-CSDN博客_heckman两阶段模型）

自选择是指由于经济个体（个人、家庭或厂商）本身具有选择判断能力，因此很可能会采取一些影响抽样过程的行动，从而使抽样失去随机性，造成所收集到的样本不能比例地代表总体。 ?举例：若我们想研究妇女年龄与工资收入，虽然我们可以观测到有工作的妇女的实际工资收入，但是不知道没有工作的妇女的“保留工资”（即愿意工作的最低工资）。于是我们收集数据时就会缺失没有工作的妇女样本。

2.?Heckman两阶段模型

Heckman两阶段模型的功能就是试图纠正这种偏差导致的估计偏误。

2.1 第一阶段

第一阶段的模型是一个包括全样本（753人）的Probit模型，用来估计一个人参加工作与否的概率。这里所说的因变量是二元的，也就是表示为是否参加工作；自变量是一些会影响个人决定工作与否的外生变量，比如其他收入来源、年龄、有几个未成年子女，等等。这些自变量类似工具变量——他们会影响个人是否参加工作的决策，但不太可能影响参加工作后的收入水平。然后根据这个Probit模型，我们可以为每一个样本计算出逆米尔斯比率（Inverse Mills Ratio）。这个比率的作用是为每一个样本计算出一个用于修正样本选择偏差的值。

2.2 第二阶段

第二步只需要在原来的回归方程——即对于428个有工作的样本，基于她们受教育程度和经验的回归中加入一个额外的自变量——逆米尔斯比率即可，然后估计出回归参数。

重点来了，等我们加入逆米尔斯比率后，我们对估计出来的回归参数进行检验。观察在第二阶段方程中，逆米尔斯比率这个自变量的显著性。

如果该逆米尔斯比率变量不显著，则说明最一开始的回归方程并不具有样本选择偏差，研究者可以根据原来的系数来做出统计推断；
但如果逆米尔斯比率的参数是显著的，则说明样本选择偏差是存在的，研究者应当根据第二阶段方程里的回归系数来做出统计推断。

3. Heckman其人

詹姆斯·赫克曼（James J. Heckman），美国著名经济学家，美国芝加哥大学经济学教授、芝加哥经济学派代表人物之一，2000年诺贝尔经济学奖得主。赫克曼1944年生于美国伊利诺斯州的芝加哥，曾就读于科罗拉多学院数学系，1971年获普林斯顿大学经济系博士学位，2013年获伦敦大学学院经济学名誉博士学位。

曾在哥伦比亚大学、耶鲁大学、和芝加哥大学任教，曾任伦敦大学学院微观经济学主席。微观计量经济学的开创者，因对分析选择性抽样的原理和方法所做出的发展和贡献，与丹尼尔·麦克法登一起荣获2000年诺贝尔经济学奖。

赫克曼和另一位2000年诺贝尔经济学奖得主丹尼尔·麦克法登的主要贡献在于建立和发展了个体计量经济学，在微观计量经济学理论与方法上做出了突出贡献。他们设计出研究人们生活方式决策的分析方法，已经在经济学及其他社会学科中广泛地用于对个人、家庭与企业的统计分析。这些理论与方法对于教育训练计划、城市运输系统和老人住房等社会经济问题的研究具有重大现实意义。要对他们的贡献有所了解，必须先对个体经济计量研究有一些认识。所谓个体经济计量学是指对家庭、厂商等经济个体的行为所进行的计量研究，研究对象范围很广，主要有劳动经济学的课题：劳动供给、薪资决定、教育选择、失业期间、移民、职业选择、生育选择、性别歧视、种族歧视等；公共经济学的课题：租税政策及社会福利的效应；消费行为研究的课题：商品需求、品牌选择；都市及运输经济学的课题：住房租购选择、区位选择、交通工具选择；产业经济学的课题：生产形式选择、生产要素需求、生产效率评估等。

抽样问题是计量经济学中的基本问题，而抽样偏差和自选择问题则是微观计量经济研究中最基本的问题。如果一个样本不能随机地代表其总体，则抽样偏差就可能发生。一般来说，一个样本要么是数据收集规则的结果，要么是经济人自我行为的结果。后者就是一个自选择的过程。 赫克曼在自选择方面的研究突破主要发生在二十世纪七十年代中期。这些理论上的突破，与他本人对劳动力个体决定劳动参与和工作时间的潜心研究密切相关。当只考察那些已经选择工作的个体的工作时间变化时，就可能遇到带有自选择问题的样本。在1974年发表的一篇文章中，赫克曼研究已婚妇女的劳动供给问题时，设计出一种解决自选择问题的计量经济学方法。这份研究现在已成为将微观经济理论与微观计量方法结合起来研究的一个极好例证。

赫克曼在随后的研究工作中又提出了另一解决自选择问题的方法，即著名的赫克曼矫正法，又称两阶段方法或赫克曼方法。这个方法应用起来极为方便而且影响十分深远。赫克曼矫正法分两个步骤进行：第一步骤，研究者根据经济学理论设计出一个计算个体工作概率的模型，该模型的统计估计结果可以用来预测每个个体的概率；第二步骤，研究者将这些被预测的个体概率合并为一个额外的解释变量，与教育、年龄等变量一起来矫正自选择问题。这样，估计出的工资关系在统计意义上就很适当了。