网站首页  词典首页

请输入您要查询的论文:

 

标题 混合正态分布模型在乙肝发病人数分析中的应用
范文

    李玲慧

    摘要:根据疾病预防控制局发布的全国法定传染病疫情概况,基于混合正态分布模型和EM算法,用R软件对乙肝发病数建立两混合正态分布的模型。结果显示,处在低发期的乙肝疫情服从正态分布

    关键词:混合正态分布模型;EM算法;乙肝

    中图分类号:TP18? ? ? ? 文献标识码:A? ? ? ? 文章编号:1009-3044(2019)03-0239-03

    1 研究背景与问题提出

    乙型病毒性肝炎(简称乙肝)是由乙型肝炎病毒(HBV)感染引起的以肝脏炎性病变为主并可引起多器官损害的一种传染病[1]。本病可广泛流行于世界各国,一年四季均可发病,近年来,乙型肝炎发病率呈明显增长趋势,据世界卫生报道,全球约20亿人曾感染过HBV,每年约有100万人死于HBV感染所致的肝衰竭、肝硬化和原发性肝细胞癌等。我国自2004年1月开始每月定期发布全国法定传染病疫情概况,这对探讨疾病的流行规律有着重要的指导意义。

    目前关于我国乙肝发病预测的方法[2-5]有ARIMA模型、广义回归神经网络、灰色系统和隐马尔科夫模型等,这些方法都存在着缺点,ARIMA模型没有深入研究模型所具有的局限性,如乙肝发病数量的非负性和整数性;广义回归神经网络和灰色系统忽略了从传染病学角度分析模型的参数;隐马尔科夫模型得出的结论局限于预测发病的状态,而不能很好地预测发病数量。本文创造性地运用两混合正态分布的模型进行乙肝发病数量分析,通过乙肝疫情所处状态,分析各状态服从的分布,为乙肝预警机制提供理论依据。

    混合正态分布在样本量足够大的随机现象中具有很好的拟合能力,可以用正态分布逼近,因此在进行参数估计的问题中被广泛应用[6]。有效地运用混合正态分布模型来拟合数据其关键在于参数的精确估计,比如在两个正态分布的混合模型中有6个参数需要估计,如果用矩估计或极大似然估计法来估计参数,其过程相当复杂[7]。EM算法是用来对含有不可观测数据的极大似然估计,在许多场合该算法能很好地估计模型的参数。

    2 模型构建

    2.1 混合正态分布

    2.2 EM算法在R中的实现

    EM算法是一种迭代算法,主要应用于含有隐变量的参数估计[8],在统计计算中,EM算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,如果不用統计软件,则需在观测数据的基础上添加一些数据以构成完全数据,进而简化计算过程[9]。事实上简化后的计算量也相当大,杨晴等[10]EM算法在混合正态分布模型参数估计中的应用研究通过R软件对EM算法进行数值模拟并验证了EM算法的收敛性和有效性,所以本文运用R语言对所建立的混合正态分布模型进行数值模拟[11-12],在多次迭代之后参数趋于平稳,即可得出模型的参数值。

    3 实证分析

    疾病预防控制局自2004年1月起每月定期发布全国法定传染病疫情概况,其中乙肝(乙型病毒性肝炎)是目前各类病毒性肝炎中危害最严重的,也是发病数和死亡数最多的一个型别,并且不像其他类型的肝炎那样呈现出明显的季节性或趋势性变化,因此对于乙肝发病数和死亡数的建模比其他类型的肝炎更复杂。

    本文以2004年1月至2018年5月每月乙肝的发病数为样本,对乙肝发病数的模型进行参数估计,通过乙肝疫情所处状态,对各状态服从的分布进行分析。

    由样本的均值和标准差,得出乙肝发病人数的直方图和密度估计,分别与正态分布的密度比较(图1和图2),再对该样本的基本统计指标进行分析,会发现乙肝发病数不服从正态分布。

    我们知道乙肝发病存在高发期和低发期两个状态,如果这两个状态分别服从正态分布,则发病人数就服从混合正态分布。不妨设乙肝发病数服从以下混合正态分布:

    4 结语

    近年来乙肝疫情一直是各类病毒性肝炎中发病人数最多、危害最大的传染病,对乙肝发病人数进行分析可以有效预防该疫情的传播。本文以混合正态分布模型为基础,基于疾病预防控制局每月定期发布的全国法定传染病疫情概况,用R统计软件分析数据的直方图、密度估计和各项统计指标,并用QQ图检验,建立了两混合正态分布模型。在此基础上,利用EM算法来估计模型的参数,对乙肝发病数进行分析。

    参考文献:

    [1] 中国医师协会检验医师分会.乙型病毒性肝炎检验诊断报告模式专家共识[J].中华医学杂志,2017(18):1363-1368.

    [2] 刘琼,杨建华.隐马尔科夫模型在乙肝发病预测中的应用[J].数学的实践与认识,2017 Vol.47 No.19:203-210.

    [3] 陈远方,张熳,王小莉,等.ARIMA模型和BP神经网络模型在我国乙型肝炎发病预测中的应用[J].江苏预防医学,2015(3):23-26.

    [4] 杨德志.广义回归神经网络在乙肝发病数时间序列预测中的应用[J].计算机应用与软件,2013,30(4):217-219.

    [5] 陈银苹,吴爱萍,范红敏,等.灰色系统对乙型病毒性肝炎发病率的预测研究[J].中国现代医学杂志,2014,24(24):77-81.

    [6] 陈晓林,汪四水.一类混合正态分布参数估计的EM算法和数据扩张[J].苏州大学学报,2007 Vol.23 No.3:13-17.

    [7] 吴为人.两个正态分布的混合分布参数的估计[J].福建农学院学报,1989,18(2):236-243.

    [8] 杨珂玲,韩慧芳.两混合正态分布的参数估计方法[J].黄冈:黄冈师范学院学报,2006 Vol.26:16-19.

    [9] Maria Grünewald,Keith Humphreys,Ola H?ssjer. A Stochastic EM Type Algorithm for Parameter Estimation in Models with Continuous Outcomes, under Complex Ascertainment [J]. The International Journal of Biostatistics,2011,6(1).

    [10] 杨晴,魏立力.EM算法在混合正态分布模型参数估计中的应用研究[J].科技广场,2014.2:6-10.

    [11] Jochen Voss. An Introduction to Statistical Computing, A Simulation-based Approach [M]. John Wiley & Sons,Ltd,The Atrium,Southem Gate,Chichester,West Sussex,PO19 8SQ,United Kingdim,WILEY, 2014.

    [12] [美] Robert I.Kabacoff. R语言实战[M].2版. 王小宁,刘擷芯,黄俊文,等.译.北京:人民邮电出版社,2016.

    【通联编辑:唐一东】

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 5:34:29