商业调查中非抽样误差来源及控制研究
王爱珍 时 涛
[摘 要] 商业调查大部分都是抽样调查,调查过程中天然存在的抽样误差和调查执行中的非抽样误差是影响数据质量的两大误差类型。确定合理的抽样方案后,调查数据质量控制的重点就放在了减少非抽样误差上。本文即针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并发掘其有效控制的可行性方法。
[关键词] 商业调查 非抽样误差 质量控制
一、引子
随着世界经济的快速发展,调查行业异军突起,调查企业不断壮大,调查营业额连年攀升。面对日益复杂的国内外环境,企业对调查数据的质量要求在不断提高。而商业调查大部分都是抽样调查,调查过程中天然存在的抽样误差和调查执行中的非抽样误差是影响数据质量的两大误差类型。
在商业调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。本文即针对抽样调查两大误差类型展开分析讨论,重点分析非抽样误差来源,并发掘其有效控制的可行性方法。
二、商业调查误差分类
由于商业调查大部分是抽样调查,而抽样调查一定存在抽样误差。因此,要商业调查的误差,必须了解误差的分类。调查误差分为两种类型:抽样误差(Sampling Error)和非抽样误差(Non-sampling Error。
1.抽样误差(Sampling Error)
抽样误差是由于用样本估计总体而产生的误差,它可以通过增大样本量来减小误差,但不可避免。样本只是总体的一部分,用局部数据来估计总体不可能完全正确。对任何一种抽样方案,可能的样本会很多,而实际抽到的只是一个样本,因此抽到那一个样本完全是随机的、偶然的。抽样误差是一种系统误差,其大小依赖于抽样方案,任何一种抽样方案一旦确定,由抽样方法本身导致的误差就已经确定了。在电视收视率调查的质量管理实践中,通过组织专家评审会的方式不断完善抽样方案,尽可能地减少抽样误差。其抽样方案经过专家的评价审核,确定了合理的抽样方案后,其质量控制的重点就放在了减少非抽样误差上。
2.非抽样误差(Non-sampling Error)
非抽样误差包括了除抽样误差外,引起调查误差的所有其他因素,不可以通过增大样本量来控制,它可以避免。非抽样误差包括:抽样框误差;无回答误差;计量误差。
通常认为非抽样误差的发生完全是由于调查程序设计和执行中的错误和不足引起的。因此,从理论上说,完美的设计和完美的执行将完全避免非抽样误差。但从实践看,我们永远也不可能完全消除设计和执行过程中的问题。这种理论上的完美可能性和实际情况之间的差异,决定了我们在控制非抽样误差上的努力永远没有止步的一天。
三、商业调查中非抽样误差来源例解分析
商业调查中的非抽样误差按其产生的原因可分为以下三类:抽样框误差、无回答误差、计量误差。
1.抽样框误差
抽样框误差是指目标总体(Target Population)和抽样总体(Sampling Population)不一致而产生的误差。理想的抽样框应是所有的抽样单位必须覆盖目标总体,即抽样总体与目标总体一致。对于较为简单的单阶段抽样,抽样框要唯一地与目标总体相连接。如果目标总体与抽样总体不一致就会产生抽样框误差。多阶段的分层抽样更是如此,如果每个分层抽样的抽样框是正确的,其精度会高于简单的单阶段抽样;反之,则误差会更大。
一般来说,抽样框误差有以下几种类型:
(1)不能覆盖目标总体单位。不能覆盖目标总体单位,指目标总体单位全部或部分没有出现在抽样总体中,导致部分目标总体被抽中的概率为零,数据丢失。例如:在某城市的抽样方案,目标总体同上。由于该城市进行行政区划的改变,原来的四个城区与近郊区重新规划,整合为五个新的城区。在收集抽样框资料时,如果收集的资料仅为四个城区的资料,未包括后列入的近郊区,就会形成抽样框的不完整,造成数据的偏差和丢失。
(2)抽样总体包括了非目标总体单位或抽样框部分重复。这与第一种情况恰恰相反,是指有一部分不应被收集入抽样框的资料,被错误地列入被抽样之列,导致目标总体被夸大,或者抽样框中有一部分以不同形式出现然而实际是重复的样框,导致这部分样框被抽中的概率增大,引起数据偏差。例如:一个城市中地域相邻的几个城区各自辟出工业相对发达的一部分来成立一个新的经济技术开发区,在收集资料时将原有的城区与新的经济开发区的资料一起收集并列抽样,则会引起包含在经济技术开发区中的居(村)委会的重复抽选,样本在这部分工业相对发达的居(村)委会的比例严重扩大,这必然引起最终收视率数据的偏差。
(3)抽样框老化。统计数据调查具有很强的时效性,随着时间的推移,抽样框必须更新,否则就会老化,不符合实际情况而使抽样不准确。最典型的例子,就是随着城市建设的大规模展开,许多地区已经被改造。例如:目前随着商品房的成片开发,大批的商品化住宅小区出现,许多家庭不只有一处住房,出现了大量诸如人员住在本小区,户籍却在其他地方,或户籍在本小区,人员居住却在其他小区的情况。
(4)分层抽样时各层的辅助信息不正确。这种情况在简单随机抽样中不存在,但在分层抽样中却是出现抽样框误差的一种重要来源。由于我国各地区政治、经济和文化的发展不平衡,各地电视观众的构成和收视偏好差异巨大。影响观众收视行为的因素既有宏观因素,也有微观因素。因此,在进行基础研究阶段抽样方案设计时我们既要综合考虑人口、社会、经济、地理等宏观因素,又要关注收视设备拥有及频道接收情况、家庭特征、观众个人特征等微观因素。
总之,建立一个准确、及时的抽样框,是减少非抽样误差的一个重要方面。在实践中,完美的抽样框几乎无法达到,有缺陷的抽样框并非不能使用,关键看造成抽样精度的损失和弥补样框的成本之间的比较和权衡。
2.无回答误差
所谓的无回答误差是指数据的丢失,其原因有两种:一是有意不回答,即被访者拒绝就某一问题给予回答;二是无意不回答,即可能是被访者不在家或是访问员疏忽,导致数据遗漏。无回答误差最常见的有以下几种:
(1)抽样遗漏。抽样遗漏是指抽样过程中没有抽到一些本应调查的抽样单位。这种误差的产生来源不同于前述的抽样框误差,但产生的结果类似,甚至更为严重。因为抽样过程中产生的遗漏最可能是因为漏掉了某一类特征群,而这类特征群的缺失会使调查结果出现无法调整的偏差。例如:在基础研究阶段,访问员如果只固定在晚间某个时段拜访被抽中的样户,很可能就无法与一些工作时间主要在晚间该时段的家庭户取得联系。数次拜访不成后,该样户可能被放弃,而另选其他替代样户。这样就有可能在无意间缺失了该类特征群的收视调查数据。
(2)无法查找或联系不上
一般情况下,这种误差来源主要是由于抽样框中的地址不确切、发生了变化或者被访者家中无人(如外出旅游、生病住院等特殊情况)造成的无法接触的情况。如果这种误差是随机地、均匀地发生的,尽管增大了误差范围,但对最终结果的威胁并不大。但如果这种情况集中发生在某一类特征群中,就会产生严重的系统性偏差。
(3)被访者拒访
这是最容易理解的一种无回答误差,也是最能体现访问员个人技巧和调查公司现场业务能力的方面。据访率高,响应率就低,抽取样本的误差就会增大。因此这种类型的无回答误差是调查公司在现场质量控制方面致力提高的关键点。在我国的市场调查活动中,产生这种无回答误差的最主要原因与其他国家还有着显著的不同——调查组织者的身份会在很大程度上左右被调查者的回答意愿。对于国家正式统计部门组织的调查,如居民住户、人口情况等调查,很少有无回答的问题。这与我们国家计划经济改为市场经济的时间较短有莫大关系,也与统计部门组织调查的权威性有密切关系。而在一些非官方的民间调查中,无回答情况则频繁出现。
3.计量误差
计量误差是所有非抽样误差中可能出现的环节最多,也最难以避免的一种误差形式。按其产生原因可大致分为三类:调查方式设计产生的计量误差,调查执行过程中产生的计量误差,其他计量误差。
(1)调查方式设计产生的计量误差,主要有以下两种:①问卷设计产生的误差:主要是由于不同措辞的不同表达造成了不同的理解。例如文字当中使用了带有倾向性或诱导性的词汇,本身使人产生歧义;或者问卷当中问题的排列顺序不科学;或者问卷过长导致访问疲劳产生等原因造成的误差。②数据收集方式设计产生的误差:例如媒介调研数据采集方法中的日记卡法,以15分钟为一个计量时段,在向样户发放的日记卡中,一个时段由19∶00标志,时间是连续不断的,这个标志既是上一个时段的结束又是下一个时段的开始。事实上这个时间标示的是19∶00∶00—19∶14∶59。这样的标志有些含糊,如果不在日记卡中作相应的解释性说明,并由访问员专门向样户着重强调,很可能导致样户理解错误,从而造成计量误差。
(2)调查执行过程产生的误差,是计量误差的一个重要组成部分,主要来自于两个方面:①是访问员有意或无意导致数据失真。②是被访者有意或无意导致数据失真。产生这个问题的主要原因是理解错误或记忆错误,这个问题也是任何一个从事市场调研公司致力解决的重要问题,在AGB质量管理实践中,主要通过连续、全面的培训和复核工作加以控制。
(3)其他计量误差:常见的类型有随机数表的编制和使用不当造成的误差;数据处理过程中(包括编码、录入)发生的误差,等等。这些误差都可以通过比较有效的质量控制加以限制,相关管理措施将在本文的第四章加以详细论述。
总之,商业调查作为一种市场数据调查,其产品的无形性、不可追溯性和差异性,决定了对其实施的质量控制本质上就是对调查误差的控制。
三、结束语
在科技不断快速发展的今天,作为商业调查分析人员,我们应不断适应社会发展,发展调查的新技术新手段,不断商业调查数据质量,不断深化对基础研究资料的分析和利用,对调研数据的具有针对性地解释说明,更充分地满足市场的需求。
参考文献:
[1]冯士雍等编著:抽样调查理论与方法.中国统计出版社,1998年
[2]刘燕南编著:电视收视率解析—调查、分析与应用.中国传媒大学出版社,2000年
[3]AGB媒介调研访问员培训手册,2007年