标题 | 参数估计与假设检验:原理、方法与误区 |
范文 | 李奇明 徐德义 [摘 要]作为统计分析的基础,参数估计和假设检验的原理与方法是教学难点所在,常常引起教与学的过程中诸多误解、误用和误读。在对参数估计和假设检验的原理与方法加以阐释基础上,采用比较研究的方法,可以找出教学中可能存在的误区。参数估计和假设检验具有许多共同点,二者之间存在紧密联系。一般情况下,区间估计与假设检验之间具有对应性;可以利用置信区间进行假设检验,也可以利用假设检验进行区间估计;但不能把参数估计与假设检验等同起来。 [关键词]参数估计;置信区间;假设检验;原理;方法;误区 [中图分类号] C8 [文献标识码] A [文章编号] 2095-3437(2018)02-0040-03 参数估计和假设检验是统计学专业的基础知识,是统计学课程教学的重点内容。然而,由于对基本思想和原理的认识不到位,常常导致对一些知识点存在误解,进而造成错误的应用,甚至得出错误的结论。本文将从参数估计与假设检验的原理谈起,重点就这两类方法应用中的一些误区展开讨论,为相关课程的教学提供参考。 一、参数估计与假设检验的内涵 参数估计与假设检验是推断统计的重要内容。[1]其中参数估计是利用样本统计量的信息推断未知的总体参数,包括点估计和区间估计。因点估计不能提供可信程度的信息,我们更多使用的是区间估计。而假设检验是先对总体的参数做出某种假设,为判断所作的假设是否正确,从总体中抽取样本判断假设是否成立的过程。[2] (一)正确理解置信水平的含义 在区间估计时,我们可以根据样本信息求出总体未知参数的置信区间,并保证总体参数的真值将有一定的机会落在所计算的区间内。比如置信水平为95%,即意味着总体参数的真值将有95%的机会落在该区间内。当然,对置信水平含义的这一解释常常会被误解为“有95%的把握保证”参数的真值会落在这个区间里。显然,计算某人对某一件事的把握程度,与计算一个置信区间完全是两回事,不应该“从一个结论的角度看待置信区间”,而应该“将其视为一个过程” 。[3] (二)正确理解假设检验的目的 在很多情况下,假设检验的目的是用来拒绝原假设,也因此称之为显著性检验。拒绝原假设,并不意味着有充分的理由认为备择假设就必然是正确的;不拒絕原假设,也不意味着原假设必然是正确的。不论是拒绝还是不拒绝原假设,“该显著性检验永远不能确认这些假设一定是真的”。[3]针对有的情况下我们将拒绝域以外的部分称为“接受域”的说法,主要是为了方便,而并不是说在不能拒绝原假设时就等于“接受”原假设。但对于“接受原假设”、或“接受备择假设”这样的表述,由于容易让人造成误解,我们倾向于表述为“不拒绝”,而不是“接受”。[4] 二、参数估计与假设检验的共同点与联系 参数估计与假设检验之间的共同点有很多。比如,二者都是根据样本的信息,以样本统计量的抽样分布为依据,对总体参数进行推断,推断结果都有一定的风险。而且,最为重要的一点就是,对同一问题的区间估计和假设检验,使用的是同一样本、同一统计量、同一分布。[1] [2]这也正是二者之间存在紧密联系的根源所在。 以双侧检验为例,根据统计量的抽样分布和给定的显著性水平,我们可以确定左右两侧的临界值和拒绝域。拒绝域位于两侧临界值的外侧,而位于两侧临界值之间的区域(或称接受域),正好与该总体参数的置信区间相对应或相等价。[1]单侧检验与单侧置信区间同样如此。在此为了表述方便,我们将二者的这一联系称为区间估计与假设检验之间的对应性。也就是说,我们总是可以根据假设检验的拒绝域,得到对应的区间估计的置信区间;或反过来根据置信区间,得到对应的拒绝域。[5] 三、区间估计与假设检验的对应性原理 在一般情况下,区间估计与假设检验的对应关系,可以根据检验统计量的关系式推导出来。不论是双侧检验还是单侧检验,都与相应的置信区间相对应。 (一)双侧检验 以总体均值的假设检验为例,在假定正态分布、已知总体方差的情况下,我们对总体均值的双侧检验是在假定原假设为真,即μ=μ0的情况下,通过计算样本统计量的值,并与一定的显著性水平下对应的临界值比较,进而做出决策。这时的拒绝域可以表示为: P(>zα/2)=α 于是,相应的接受域为: P(zα/2≤≤zα/2)=1-α 这一接受域对应的正是总体均值的置信区间的范围。我们可以从中求出总体均值μ0的置信区间为: -zα/2≤μ0≤+zα/2。 (二)单侧检验 当左侧检验时,拒绝域分布在左侧,其表达式应为:P(<-zα)=α。这时的接受域应为:P(≥-zα)=1-α,于是对应的左侧(单侧上限)置信区间应为:(-∞,+zα)。 当右侧检验时,拒绝域分布在右侧,其表达式应为:P(>zα)=α,对应的接受域应为:P(≤zα)=1-α,于是相应的右侧(单侧下限)置信区间应为:(-zα,+∞)。 以上均值问题所表现出的这种对应性,在比例和方差问题的区间估计和假设检验中同样存在[1],在此不再赘述。 四、利用置信区间进行假设检验 正是因为存在对应性,我们同样可以利用区间估计的置信区间来进行假设检验。比如,在上述均值的假设检验问题中,我们只要根据样本均值计算出总体均值的置信区间,再将原假设中的μ0与该置信区间进行比较,即可做出决策。如果μ0位于该置信区间内,则不能拒绝原假设;否则,就拒绝原假设。可见,参数的区间估计方法不仅可以对未知参数进行估计,而且还可以用来对参数进行假设检验。因此,人们通常认为置信区间比单纯的显著性检验能够提供更丰富的信息。[4] 这里需要强调的是,在利用置信区间进行假设检验时,应利用总体参数的置信区间来与假定的总体参数值进行比较,进而做出决策。这里的“置信区间”一定是根据样本统计量计算得到的。但在实际运用中,人们常常为了方便,将用置信区间进行假设检验的方法进行“变换”,即利用假定的总体均值μ0构造一个区间,并与样本均值进行比较,进而做出决策。仍以前面的总体均值的双侧检验为例。这一方法是利用原假设中的μ0计算出以下区间:(μ0-zα/2,μ0+zα/2),然后将样本均值与之比较,如果样本均值不在该区间内就拒绝原假设。[2] 首先,这种“变换”做法与前面规范用法的检验结果是一致的。这是因为根据规范的置信区间表达式-zα/2≤μ0≤+zα/2,用假定的总体均值表示样本均值就可以得到:μ0-zα/2≤≤μ0+zα/2。这一区间还可以看作是在给定的显著性水平下、假定总体均值为真时,样本均值可能的取值范围。同理,我们根据规范的左侧区间表达式,可以得到左侧检验时样本均值的取值范围为(μ0-zα,+∞);根据规范的右侧区间表达式,可以得到右侧检验时样本均值的取值范围为(-∞,μ0+zα)。其次,通过对比前后两种方法得到的两类区间可以发现,后者在单侧检验情况下得到的样本均值的取值范围公式,在书写形式上与双侧检验时的区间形式方向保持一致,比规范用法更方便记忆。 尽管如此,但后一种方法所构建的区间容易混淆人们对“置信区间”的认识。只有总体参数才有置信区间,而且只能根据样本统计量来构建总体参数的置信区间,而不能以假定的总体参数值为依据建立所谓的“置信区间”,或者说这样构建的区间根本就不是置信区间,因为它代表的并不是总体参数可能的区间范围,而是样本统计量可能的取值范围。因此,为了避免产生误导,造成概念混淆,在利用置信区间进行假设检验时,应采用规范的置信区间来进行假设检验。 五、利用假设检验进行区间估计 在有些情况下,参数的区间估计方法不一定比假设检验方法表现得更好。比如,在对小样本的比例检验问题中,或是当样本比例偏小或偏大的情况下,置信区间的估计往往会变得不可靠,而利用假设检验方法得到的估计结果却更为合理。在统计学中,我们在用样本比例进行区间估计时,为了简化问题,一般都只讨论大样本情形。在np≥10和n(1-p)≥10时,样本比例的抽样分布可用正态分布近似。实际上,样本比例常用来描述分类数据,其分布多为离散型分布。正因为如此,按照近似方法计算出来的总体比例的置信区间,往往覆盖总体真实比例的概率要小于(1-α)。[6]为此,需要对检验统计量进行连续性修正,以提高精确程度。[7]特别是当样本比例偏大或偏小时,得到的总体比例的置信区间会效果非常差。[8] 这里用一个例子加以说明。[8]假设进行了一个试验来评估某个新治疗手段的临床效果,已知在最初10次试验中成功了9次。那么,如果按照区间估计的方法(置信水平95%),总体比例的置信区间应为: 0.9±1.96=(0.714,1.086) 显然,计算得到的置信区间上限已大于1,这样的估计结果很难让人信服。在这种情况下,一种简单的处理方法是将该区间上限修改为1。[6]同时,另外一种尝试是应用假设检验的思路来得到总体比例的置信区间。即根据对应性,假设检验的临界值就是区间估计的上下限,于是得到下列方程: =1.96 从中求出π0的值即得到总体比例的置信区间为:(0.596,0.982)。显然,这一区间要比之前得到的结果要更加合理一些。同时可以看出,两种方法的区别在于,区间估计方法是用样本比例作为总体比例的极大似然估计来计算标准误差,使得误差偏大;而假设检验方法分母包含的总体比例是未知数,与分子保持一致,有效避免了误差的人为扩大。 六、不能把区间估计与假设检验等同起来 由于存在对应性,我们可以利用置信区间进行假设检验,也可以利用假设检验进行区间估计。这也充分说明二者之间存在着紧密联系,具有一定的统一性;但它们又相互区别,不能把二者完全等同起来。[9]这种不统一性主要表现在以下方面。 (一)假设检验需要比参数估计掌握更充分的信息 假设检验中原假设与备择假设的设定必须从实际问题出发,在充分考虑某些非样本信息基础上,将没有充足的把握不能轻易推翻的命题作为原假设,从而将原假设被拒绝的概率控制在很低的水平上。而当这样的小概率事件发生时,我们才不得已拒绝原假设,尽量避免犯第一类错误。而区间估计则只需要依据样本进行推断,不需要考虑其他的因素。[10] (二)假设检验具有比参数估计更丰富的功能 在对假定服从某种分布的参数进行估计时,并不意味着参数估计结果一定能正确地描述观测数据,还需要通过假设检验来对得到的参数估計值加以验证。同时,假设检验还可以对总体分布的函数形式进行非参数检验。不仅如此,假设检验中“两类错误”的思想具有重要的应用价值。由于不论是拒绝还是不拒绝原假设,都存在犯错误的可能,通常做法是优先控制犯第一类错误的概率,而对犯第二类错误的概率采取扩大样本容量的方式来减小,并将其控制在预先给定的限度内。[5]而对于检验的优劣,可以通过比较检验功效(1-β)的大小来加以区分,功效越大的检验越优。为此,可以先限定第二类错误的概率,再来确定达到相应的功效需要的样本规模,进而为一些实际问题的解决提供指导。 (三)最佳区间与最佳检验的不统一性 在双侧区间估计和假设检验的情况下,即使在同一置信水平下,置信区间的选取往往也是不唯一的。此时,就会出现最佳(或最短)区间和最佳检验的问题,这就使区间估计和假设检验问题变得复杂。但在习惯上,我们常常仍取对称的分位点来确定置信区间和拒绝域,其原因就在于我们是假定统计量的抽样分布是单峰且对称的,此时按照对称分位点得到的置信区间也是最短的。而对于像样本方差这类统计量的抽样分布属于偏斜分布,我们仍按照对称分位点来确定置信区间和进行假设检验,则主要是为了方便,在这种情况下得到的置信区间并不是最短的或最佳的。[11] 当按照习惯上的这种对称分位点进行区间估计和假设检验时,尽管可能得到的不是最佳区间和最佳检验,但二者之间仍保持了对应性。但是,当人们需要求取最短区间和最佳检验时,得到的最佳区间与最佳检验之间却不再相互对应。[9]然而,上述双侧区间估计和假设检验所面临的这种不统一性,并不存在于单侧区间估计和假设检验当中。对于单侧情况下,由于置信区间或拒绝域的方向确定以后单侧尾部概率就已经确定,此时的置信区间与拒绝域仍是完全对应统一的。 七、结语 参数的区间估计与假设检验之间的关系是复杂的。它们既存在着对应性联系,在一般情况即双侧对称分位点和单侧情况下相互对应;又存在着明显的区别,甚至具有完全不同的用途和功能,服务于不同的统计分析需要。因此,它们是两类不同的推断统计方法,不能简单地等同起来。 [ 参 考 文 献 ] [1] 袁卫,庞浩,曾五一. 统计学[M]. 北京:高等教育出版社, 2004:120-121. [2] 贾俊平,何晓群,金勇进. 统计学(第三版)[M]. 北京:中国人民大学出版社, 2007:212-242. [3] [美]萨尔斯伯格著,邱东等译.女士品茶[M].北京:中国统计出版社,2004:55-61. [4]吕小康. R语言统计学基础[M]. 北京:清华大学出版社, 2017:181-182. [5] 盛骤,谢式千,潘承毅. 概率论与数理统计第四版[M]. 北京:高等教育出版社,2008:192-196. [6] 贾俊平. 统计学——基于R[M]. 北京:中国人民大学出版社, 2014:105. [7] 王静龙,梁小筠. 定性数据统计分析[M]. 北京:中国统计出版社, 2008:41. [8] [美]Alan Agresti著,张淑梅等译.属性数据分析引论(第二版)[M].北京:高等教育出版社, 2008:8. [9] 王建华. 参数区间估计和假设检验的关系[J]. 山西财经大学学报(高等教育版), 2007(4):28-29. [10] 贺乐平,莫宏敏. 参数的区间估计与假设检验的关系[J]. 数学教学与研究, 2014(85):40-41. [11] 刘次华,万建平. 概率论与数理统计(第二版)[M]. 高等教育出版社, 2003:182-185. [责任编辑:林志恒] |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。