????????在统计学的假设检验中,有一个概念叫做P值,一般通过P值跟提前定好的显著性水平进行对比,来判断是否应该拒绝原假设。如果P值比显著性水平更低,则拒绝原假设,反之,没有充分的证据拒绝原假设。在学统计的人眼中,这是很自然的,以至于不需要去进一步想一些细节,比如,P值到底是什么?如何去准确的理解?
????????P值的定义是,在原假设的基础上,统计量X的值,理论上至少跟已观察统计量一样极端的概率。更具体地,假设是右侧检验,P值就等于。其中X表示某个统计量,我们可以在原假设为真的基础上求出X的分布,就是X某一次的现实观察数据或者实验结果。根据P的定义,对于某次实验数据,我们可以求出相应的P值,从而可以通过跟显著性水平对比,判断是否拒绝原假设。
? ? ? ? P值的定义中,出现了一个词:极端(extreme),实际上,这里极端的具体解释和备择假设有关,即统计量X的值越偏离原假设,越偏向备择假设,那么就认为其越极端(相比于原假设)。比如,一般而言,构造的统计量X较多的是关于原假设预定值的差或者除,即X表示相对原假设的某种偏差,X取值越大,意味着越偏离原假设,越靠近备择假设。因此,可以这样理解P值,即在原假设的基础上,重复进行实验,那么统计量X要出现至少跟已观测的值一样极端的概率值为P。所以,如果P很小,意味着要出现至少跟已观测数据一样极端的结果的可能性是很小的,但是现实情况是这样的小概率事件在实验中发生了,那么是认为这样的小概率事件是可接受的,还是认为原假设是有问题的呢?当然的,如果P足够小,我们便认为原假设是错的,拒绝原假设。
? ? ? ? 显著性水平表示统计量X落入拒绝域的概率,而拒绝域方向是由备择假设决定的,即越偏离原假设,越靠近备择假设的区域方向就是拒绝域方向。显著性水平越小,说明在原假设基础上,统计量落入拒绝域的概率应该是越小的,但是如果已观测结果确实落入了拒绝域,即发生了小概率事件。那么面对小概率事件,我们有两种选择,一种选择是接受这种小概率事件,另一种选择是认为原假设是错的;当然,如果这种事件的概率是足够小的,比如万分之一,那么我们当然更愿意相信是原假设错了,只是不同的人对小概率事件的容忍阈值可能不一样,从而不同的研究人员可能会预先设定不一样的显著性水平。而越小的P值,就代表可以允许越小的显著性水平,也就说明拒绝原假设的证据越充分,信心越足。
? ? ? ? 由于显著性水平代表着对小概率事件的容忍阈值,因此不同的研究人员可能会选择不一样的显著性水平,就可能得到不一样的结果;但是P值还没有经过显著性水平这种带有主观性的因素的加工,所以,结果呈现时,可以直接给出P值,不同的研究人员可以根据P值结合自身的阈值得到自己的判断,而不是直接给出一个结果。这是P值的重要意义之一。
? ? ? ? P值有时候计算会更方便一些,比如有时对于离散分布或者是有些不太好计算的连续分布,显著性水平对应的拒绝域边界不是那么好给出,反而那么直接计算P值就会方便的多。
? ? ? ? 置信水平和显著性水平取值相反,但是置信水平往往用在参数估计上,表示对某个参数估计值的范围的概率或者说信心区间,而显著性水平用在假设检验上,是对某种小概率随机性的容忍阈值,不是原假设成立的概率,因为频率学派的世界里,原假设要么为真要么为假,不存在原假设多大概率上为真这样说法,后者是贝叶斯学派的说法。
|