现代社会统计方法的应用及问题探析
刘志华
摘要:随着科学技术的不断进步与發展,现代计算机技术不断进步,统计分析软件也在不断完善,这就促进了现代社会统计方法的产生。本文对现代社会统计方法的应用及问题进行了研究,为相关研究提供有用的参考。
关键词:现代社会 统计方法 计算机技术 数据分析
中图分类号:C81 文献标识码:A
近年来,计算机技术不断发展在很大程度上促进了统计分析软件的产生与完善。统计学在西方社会学领域中应用十分广泛,艾德里安·E·拉夫特里(Adrian E·Raftery)教授将战后西方社会应用统计的发展按照数据的具体类型分为三个阶段,第一个阶段从20世纪40年代开始,在这个阶段主要应用交叉表,主要是对各个变量之间的相关关系进行测量;第二个计算是从20世纪60年代开始的,在这个阶段人们使用以个体为单位的调查数据,分析的重点为与线性结构关系的有关的因果模型。第三阶段是从20世纪80年代末开始的,在这一阶段中主要以数据的多元化以及数据与数据之间的相互关联为标志,如文字性数据以及个人生命史记录等。本文对国际上社会科学目前普遍使用的统计方法进行了归纳和分析。现阶段在现代社会科学领域之中应用最广泛的统计方法进行了介绍,分别是连续型数据方法、分类数据分析法、生存分析法、结构方程模型。
1 连续型数据的应用及问题分析
连续型数据是社会统计方法之中最常见的一个模型,在这个模型之中最典型的就是线性回归模型,同时线性回归模型也是统计学其他模型的基础。另外,方差分析(Analysis of Variance ANOVA)和线性回归的联系十分密切。1950年费希尔提出将由于每一个原因导致的方差从它这个原因引起的方差之中分离出来,就是方差分析[1]。
在线性回归之中因变量可能是以单变量的方式出现,也有可能多个变量同时出现。举例来说:在膳食结构对人的身体发育情况的影响作用中,要测量很多个变量,如身高、体重以及腰围等。在处理这个问题时可以将以上三个因素都看作因变量,从而建立线性回归模型。但是身高、体重以及腰围三者之间存在一定的相关性,如果把它们分别看作因变量就会在一定程度上影响三者之间的相关性,最终就会影响统计结果。如某一个变量不受膳食结构的而影响,但是应用上述方法,最终在线性回归模型上这个因素也会反应为“有显著影响”。所以多个因变量的情况下可以应用多维线性回归模型(Multivariate Linear Regression Models),这个模型可以用Y=XB+U的形式表示,其中Y代表k个因变量的n个观察值的nxk阶矩阵;X则代表m个因变量的n个观察值的nxk阶矩阵;B代表nxk阶回归系数矩阵;U代表nxk阶的随机误差。
以上所介绍的一般线性回归模型主要是针对具有连续变化数据以及一些简单的数据结构,而对于其他数据比较复杂的统计模型会成为相对独立的模型。
2 分类数据的应用及问题分析
连续变量的线性回归模型是从20世纪初开始受到关注,分类数据分析(Categorical Data Analysis)是20世纪中后期才被人重视,分类数据分析在社会学中应用最为广泛[2]。对分类数据的分析主要从两个方面进行分析,其中一个方面与假设检验具有一定的相关性,具体来说就是对分类变量之间的关系进行检验;另外一个方面主要是用自变量来解释因变量的广义线性模型法,最常见的一种方法就是逻辑斯蒂回归法[3]。分类数据分析能够有效地分析和研究多个变量之间存在的联系。
分类数据的表现形式十分多样,其中最常见的表现形式就是交叉表,具体来说就是把某一个变量看作行另外一个变量看作列,这就就可以把行变量看作自变量,把列变量看作因变量。举例来说,在作为学生干部是否就具有好的学习成绩的检验中,将当学生干部看作变量1,将好的学习成绩看作变量2,检验两个变量之间是否存在联系,并且分析两者之间的关系是否显著。在分类数据的检验中,检验思路为:假设变量之间没有差异,那么交叉表之中的条件分布与它对应的边缘分布是一致的,因此在这个假设条件下求得的单元之就被称为期望值。实际值与期望值的差的评分除以方差,在大样本的条件之下应该与特定的卡方相近。
在分类数据的回归分析之中,二元变量的分析是最基本的。这里说的二元变量,就是指只有两个变量值,并且这两个变量值还服从二项分布。如上面提到了学生干部问题,通过变量1和2研究能够分析两个变量之间的联系。但是在使用这一方法时,要注意观察交叉表之中的条件分布与它对应的边缘分布是否一致。同时要对交叉表使用的样本数据进行统计的显著性检验,如果检验结果表示两个变量之间没有显著性的关系,那么交叉表的分析是没有意义的。因此,在使用这一方法时,还要对交叉表中的两个变量进行显著性检验,以此保证交叉表分析具有统计学意义。
3 生存分析的应用及问题分析
社会统计学之中生存分析最早在生物统计学之中应用,社会学为生存分析起了一个名字,叫做事件史分析(Even—history Analysis)[4]。随着这种方法的应用与实践,发现只要是对事物的某一状态的持续时间进行详细的分析,都能够叫做生存分析。例如一个人从失业状态到再就业状态。对一个人从找到工作开始到最终结束工作的一段时间中发生的所有事件进行分析。研究这个人在工作持续时间内影响他最终离职的原因。现阶段,生存分析法在各个领域之中应用广泛,但是在不同领域中应用的名称是不同的,如在工程领域之中生存分析法被称为可靠性分析。
生存分析主要就是对事物的某一个状态从开始结束持续时间的描述和介绍,在实际分析的时候,首先要根据已经掌握的数据对生存函数进行计算,并且把生存函数当作因变量再建立回归模型,通过回归模型之中的自变量对因变量进行详细的解释。由于,生存分析主要的分析对象是时间数据,所以生存分析的数据结构比较特殊,通常情况下要通过回顾性调查和跟踪性调查收集数据。生存分析和一般的线性回归模型不同,因为一般的线性回归模型不能分析时间变量。如,在一个人从失业状态到再就业状态的研究中,要对这个人的整个工作过程进行过回顾性调查和跟踪性调查收集数据。
4 结构方程模型的应用及问题分析
现阶段,在西方社会科学研究之中,最热门的一类模型就是结构方程模型,这个模型的优势也十分明显[5]。在西方社会科学研究之中,第一个使用结构方程模型的是休厄尔·赖特,也是一个计量生物学家。1918年休厄尔·赖特用结构方程模型对骨头的大小尺寸问题进行了详细的分析。结构方程模型能够对复杂的因果关系进行描绘,而目前社会关系比较复杂,而且会越来越复杂,所以在这种社会环境下结构方程模型非常热门。结构方程模型在实际应用中,通常先对自变量的原因进行假定,然后将因变量看作是自变原因导致的结果。但是实际上社会变量之间的关系不是那么简单的各个变量之间的关系不仅有直接关系还具有间接关系。
结构方程模型是由一个方程系统组成的,方程系统之包括速记变量以及具体的结构参数有时还存潜在变量、观测变量以及误差变量等随机变量[6]。而各个变量之间主要通过具体的结构参数相联系,其中结构参数是常量。此结构方程系统有两个主要的子系统,其中一个子系统是潜在变量模型,另外一个子系统是测量模型。
綜上所述,随着社会经济的不断进步与发展,传统人工统计的社会统计方法已经不能适应社会发展的需求,随着计算机技术的不断发展,现代社会统计方法在不断更新,在一定程度上提升了社会统计的工作效率。本文研究分析了现代社会统计方法的应用及问题,选取了四种常用的统计方法:连续型数据、分类数据、生存分析以及结构方程模型,对他们的应用及问题进行了详细的分析,希望通过以上研究分析能够加深大家对现代社会统计学的认识。
参考文献:
[1] 杨霏云,朱玉祥,李文科,等.统计方法在中国农业气象中的应用进展[J].气象与环境科学,2016,39(3):121- 129.
[2] 朱玉祥,黄嘉佑,丁一汇.统计方法在数值模式中应用的若干新进展[J].气象,2016,42(4):456- 465.
[3] 靳宗达.敏感性问题9种R R T模型下(分层)三阶段抽样调查设计的统计方法及其应用[D].苏州大学,2014.
[4] 焦璨,张敏强.心理统计方法应用及效果量在心理研究中的作用[A].中国心理学会.第十五届全国心理学学术会议论文摘要集[C].中国心理学会,2012:3.
[5] 周全.几种多元统计分析方法及其在生活中的应用[D].长江大学,2012.
[6] 冯凤仙,于泽庆.应用统计方法提高QC小组活动水平[A].中共沈阳市委员会、沈阳市人民政府.科学发展与社会责任(B卷)——第五届沈阳科学学术年会文集[C].中共沈阳市委员会、沈阳市人民政府:,2008:4.
[7] 邵伟.蒙特卡洛方法及在一些统计模型中的应用[D].山东大学,2012.
[8] 王泳,胡包钢.应用统计方法综合评估核函数分类能力的研究[J].计算机学报,2008(06):942- 952.
摘要:随着科学技术的不断进步与發展,现代计算机技术不断进步,统计分析软件也在不断完善,这就促进了现代社会统计方法的产生。本文对现代社会统计方法的应用及问题进行了研究,为相关研究提供有用的参考。
关键词:现代社会 统计方法 计算机技术 数据分析
中图分类号:C81 文献标识码:A
近年来,计算机技术不断发展在很大程度上促进了统计分析软件的产生与完善。统计学在西方社会学领域中应用十分广泛,艾德里安·E·拉夫特里(Adrian E·Raftery)教授将战后西方社会应用统计的发展按照数据的具体类型分为三个阶段,第一个阶段从20世纪40年代开始,在这个阶段主要应用交叉表,主要是对各个变量之间的相关关系进行测量;第二个计算是从20世纪60年代开始的,在这个阶段人们使用以个体为单位的调查数据,分析的重点为与线性结构关系的有关的因果模型。第三阶段是从20世纪80年代末开始的,在这一阶段中主要以数据的多元化以及数据与数据之间的相互关联为标志,如文字性数据以及个人生命史记录等。本文对国际上社会科学目前普遍使用的统计方法进行了归纳和分析。现阶段在现代社会科学领域之中应用最广泛的统计方法进行了介绍,分别是连续型数据方法、分类数据分析法、生存分析法、结构方程模型。
1 连续型数据的应用及问题分析
连续型数据是社会统计方法之中最常见的一个模型,在这个模型之中最典型的就是线性回归模型,同时线性回归模型也是统计学其他模型的基础。另外,方差分析(Analysis of Variance ANOVA)和线性回归的联系十分密切。1950年费希尔提出将由于每一个原因导致的方差从它这个原因引起的方差之中分离出来,就是方差分析[1]。
在线性回归之中因变量可能是以单变量的方式出现,也有可能多个变量同时出现。举例来说:在膳食结构对人的身体发育情况的影响作用中,要测量很多个变量,如身高、体重以及腰围等。在处理这个问题时可以将以上三个因素都看作因变量,从而建立线性回归模型。但是身高、体重以及腰围三者之间存在一定的相关性,如果把它们分别看作因变量就会在一定程度上影响三者之间的相关性,最终就会影响统计结果。如某一个变量不受膳食结构的而影响,但是应用上述方法,最终在线性回归模型上这个因素也会反应为“有显著影响”。所以多个因变量的情况下可以应用多维线性回归模型(Multivariate Linear Regression Models),这个模型可以用Y=XB+U的形式表示,其中Y代表k个因变量的n个观察值的nxk阶矩阵;X则代表m个因变量的n个观察值的nxk阶矩阵;B代表nxk阶回归系数矩阵;U代表nxk阶的随机误差。
以上所介绍的一般线性回归模型主要是针对具有连续变化数据以及一些简单的数据结构,而对于其他数据比较复杂的统计模型会成为相对独立的模型。
2 分类数据的应用及问题分析
连续变量的线性回归模型是从20世纪初开始受到关注,分类数据分析(Categorical Data Analysis)是20世纪中后期才被人重视,分类数据分析在社会学中应用最为广泛[2]。对分类数据的分析主要从两个方面进行分析,其中一个方面与假设检验具有一定的相关性,具体来说就是对分类变量之间的关系进行检验;另外一个方面主要是用自变量来解释因变量的广义线性模型法,最常见的一种方法就是逻辑斯蒂回归法[3]。分类数据分析能够有效地分析和研究多个变量之间存在的联系。
分类数据的表现形式十分多样,其中最常见的表现形式就是交叉表,具体来说就是把某一个变量看作行另外一个变量看作列,这就就可以把行变量看作自变量,把列变量看作因变量。举例来说,在作为学生干部是否就具有好的学习成绩的检验中,将当学生干部看作变量1,将好的学习成绩看作变量2,检验两个变量之间是否存在联系,并且分析两者之间的关系是否显著。在分类数据的检验中,检验思路为:假设变量之间没有差异,那么交叉表之中的条件分布与它对应的边缘分布是一致的,因此在这个假设条件下求得的单元之就被称为期望值。实际值与期望值的差的评分除以方差,在大样本的条件之下应该与特定的卡方相近。
在分类数据的回归分析之中,二元变量的分析是最基本的。这里说的二元变量,就是指只有两个变量值,并且这两个变量值还服从二项分布。如上面提到了学生干部问题,通过变量1和2研究能够分析两个变量之间的联系。但是在使用这一方法时,要注意观察交叉表之中的条件分布与它对应的边缘分布是否一致。同时要对交叉表使用的样本数据进行统计的显著性检验,如果检验结果表示两个变量之间没有显著性的关系,那么交叉表的分析是没有意义的。因此,在使用这一方法时,还要对交叉表中的两个变量进行显著性检验,以此保证交叉表分析具有统计学意义。
3 生存分析的应用及问题分析
社会统计学之中生存分析最早在生物统计学之中应用,社会学为生存分析起了一个名字,叫做事件史分析(Even—history Analysis)[4]。随着这种方法的应用与实践,发现只要是对事物的某一状态的持续时间进行详细的分析,都能够叫做生存分析。例如一个人从失业状态到再就业状态。对一个人从找到工作开始到最终结束工作的一段时间中发生的所有事件进行分析。研究这个人在工作持续时间内影响他最终离职的原因。现阶段,生存分析法在各个领域之中应用广泛,但是在不同领域中应用的名称是不同的,如在工程领域之中生存分析法被称为可靠性分析。
生存分析主要就是对事物的某一个状态从开始结束持续时间的描述和介绍,在实际分析的时候,首先要根据已经掌握的数据对生存函数进行计算,并且把生存函数当作因变量再建立回归模型,通过回归模型之中的自变量对因变量进行详细的解释。由于,生存分析主要的分析对象是时间数据,所以生存分析的数据结构比较特殊,通常情况下要通过回顾性调查和跟踪性调查收集数据。生存分析和一般的线性回归模型不同,因为一般的线性回归模型不能分析时间变量。如,在一个人从失业状态到再就业状态的研究中,要对这个人的整个工作过程进行过回顾性调查和跟踪性调查收集数据。
4 结构方程模型的应用及问题分析
现阶段,在西方社会科学研究之中,最热门的一类模型就是结构方程模型,这个模型的优势也十分明显[5]。在西方社会科学研究之中,第一个使用结构方程模型的是休厄尔·赖特,也是一个计量生物学家。1918年休厄尔·赖特用结构方程模型对骨头的大小尺寸问题进行了详细的分析。结构方程模型能够对复杂的因果关系进行描绘,而目前社会关系比较复杂,而且会越来越复杂,所以在这种社会环境下结构方程模型非常热门。结构方程模型在实际应用中,通常先对自变量的原因进行假定,然后将因变量看作是自变原因导致的结果。但是实际上社会变量之间的关系不是那么简单的各个变量之间的关系不仅有直接关系还具有间接关系。
结构方程模型是由一个方程系统组成的,方程系统之包括速记变量以及具体的结构参数有时还存潜在变量、观测变量以及误差变量等随机变量[6]。而各个变量之间主要通过具体的结构参数相联系,其中结构参数是常量。此结构方程系统有两个主要的子系统,其中一个子系统是潜在变量模型,另外一个子系统是测量模型。
綜上所述,随着社会经济的不断进步与发展,传统人工统计的社会统计方法已经不能适应社会发展的需求,随着计算机技术的不断发展,现代社会统计方法在不断更新,在一定程度上提升了社会统计的工作效率。本文研究分析了现代社会统计方法的应用及问题,选取了四种常用的统计方法:连续型数据、分类数据、生存分析以及结构方程模型,对他们的应用及问题进行了详细的分析,希望通过以上研究分析能够加深大家对现代社会统计学的认识。
参考文献:
[1] 杨霏云,朱玉祥,李文科,等.统计方法在中国农业气象中的应用进展[J].气象与环境科学,2016,39(3):121- 129.
[2] 朱玉祥,黄嘉佑,丁一汇.统计方法在数值模式中应用的若干新进展[J].气象,2016,42(4):456- 465.
[3] 靳宗达.敏感性问题9种R R T模型下(分层)三阶段抽样调查设计的统计方法及其应用[D].苏州大学,2014.
[4] 焦璨,张敏强.心理统计方法应用及效果量在心理研究中的作用[A].中国心理学会.第十五届全国心理学学术会议论文摘要集[C].中国心理学会,2012:3.
[5] 周全.几种多元统计分析方法及其在生活中的应用[D].长江大学,2012.
[6] 冯凤仙,于泽庆.应用统计方法提高QC小组活动水平[A].中共沈阳市委员会、沈阳市人民政府.科学发展与社会责任(B卷)——第五届沈阳科学学术年会文集[C].中共沈阳市委员会、沈阳市人民政府:,2008:4.
[7] 邵伟.蒙特卡洛方法及在一些统计模型中的应用[D].山东大学,2012.
[8] 王泳,胡包钢.应用统计方法综合评估核函数分类能力的研究[J].计算机学报,2008(06):942- 952.