《基于机器学习的医疗大数据分析与临床应用》-工学论文，软件工程论文-论文范文参考-科学狗论文网

标题

基于机器学习的医疗大数据分析与临床应用

范文

孙涛徐秀林

摘要：医疗大数据指数目庞大、增长迅速、结构复杂、隐藏价值高的数据。机器学习技术能够有效分析医疗大数据的内部联系，对疾病的早期诊断及预后具有重要临床指导意义。阐述了机器学习技术在医疗大数据中的应用及研究进展，包括在大数据分析中的回归分析、决策树、基于内核的算法、降低维度算法等浅层机器学习算法模型，卷积神经网络、循环神经网络、自动编码器、深度信念网络等深度学习算法模型，以及各个算法模型的临床应用，分析了机器学习在医疗数据挖掘中的应用前景和存在的技术难题。

关键词：医疗大数据;机器学习;诊断及预后;深度学习;临床应用

1 医疗大数据

大数据指无法使用传统工具或方法进行分析处理的、具有复杂关系的庞大数据集合，需要利用纵向信息对数据进行补充分析[1]。医疗大数据是医疗卫生机构产生的一切与生命科学相关的复杂大数据[2]。这些数据数目庞大、增长迅速、结构复杂、隐藏价值高，具备多样性、时间性、缺失性、冗杂性、隐私性等特性。在医学信息化时代，挖掘海量医疗大数据的内在信息价值成为服务临床的一种选择。

医疗大数据来源不仅仅局限于医疗过程中产生的数据，而是多方式多途径产生的，来源大体可概括为 [2]：①产生于医院医疗过程中的电子病历档案、影像检查记录、检验检查记录、用药信息记录、手术记录等医疗数据;②医学科研或疾病监测产生的大数据;③基于物联网的个人身体体征和活动的自我量化数据;④区域协同卫生服务平台汇集整合的数据;⑤基因组、单细胞表型、宏基因组、生物医学图像等生物医学大数据。医疗大数据来源的多方式多途径虽然增加了复杂性，但也为临床提供了多样性的研究价值。

2 机器学习

1956年，达特茅斯会议上计算机科学家首次提出了“人工智能”概念[3]，期望通過刚刚问世的计算机创造出拥有和人类同等智慧的机器。作为人工智能最重要的技术，机器学习概念由此产生并被人们所认识和接受，其定义为不以代码编程为直接手段就能让计算机拥有学习能力的方法总称。机器学习的生命周期是一个以自主学习、判断预测为目标，以大数据集为数据支持，建立机器学习算法模型并不断评估和优化模型，最终利用模型对未知数据组成的事件作出预测，并将预测输出反馈给模型的过程[4]。机器学习生命周期如图1所示，分为4个阶段：①定义目标和假设、明确问题类型;②数据收集，准备用于训练模型的历史数据;③建模和评估，即利用训练数据建立模型，并对建立的模型进行全面评估，针对评估结果优化模型，提高模型的准确性和可扩展性;④验证模型在验证集上的预测效果，检查模型预测新数据的能力。

3 机器学习算法模型

3.1 浅层机器学习算法模型

为了获得模型最优解，根据输入变量类型的不同，可按照学习方式将机器学习分为监督学习、无监督学习、半监督学习、强化学习[5]。监督学习通过一个已明确输入变量以及期望输出变量的训练样本集去训练模型，以不提供额外输出的输入数据代入模型获得输出量，如果实际输出与期望输出不一致则继续调整模型，直到模型产生适当的输出;无监督学习和监督学习最明显的差异是，无监督学习的数据集是未记号、不明确的，它比监督学习更宽松。正是由于大量未记号的数据集存在，使无监督学习具有更广泛的适用性;半监督学习结合了前两种学习方式特点，一个有样本集记号，另一个没有记号，用这两个样本集进行模型训练;在强化学习中，模型通过对不同交互情景采取适当措施对输入作出期望行为，并对行为作出奖惩，以求最大限度地提高模型绩效。

医疗大数据领域中运用的浅层机器学习算法模型有回归分析、决策树、基于内核的算法、降低维度算法等。逻辑回归算法（Logistic Regression，LR）是常用的回归分析算法，它通过确定单个变量或者多个变量的影响权重建立关系模型。决策树算法（Decision Tree，DT）是一种递归寻优的树状模型。基于内核的算法最常用的是支持向量机（Support Vector Machine，SVM），它先建立高阶的向量空间，再通过映射关系将数据映射到高阶向量空间。降低维度算法常用的是主成分分析法（Principal Component？Analysis，PCA）和偏最小二乘回归法（Partial Least Squares？Regression，PLSR），两者皆通过降低特征维度重组数据集。其中回归分析、决策树和降低维度算法属于无监督学习，基于内核的算法属于监督学习。医疗大数据领域主要使用的浅层机器学习算法模型如表1所示。

3.2 深度学习算法模型

多层感知器计算在当时是一个复杂问题，没有便捷的解决办法。20世纪80年代后期出现了一种名为反向传播（Back propagation，BP）算法，解决了多层感知器大量繁琐的计算问题[10-13]。但多层感知器也存在令人诟病的问题：虽然有了BP算法支持，然而模型训练仍需很长时间，而且局部最优解问题在模型训练优化过程中始终存在，导致优化效果较差。2006年，Hinto[14]提出了“深度置信网络”概念。在“深度置信网络”中首次运用了“前训练”方式，即先逐层寻找权值最优解，再通过“细调”技术对整个模型进行优化，这使得神经网络各层的初始权值较优，能使整个网络收敛到理想的局部极值。多层神经网络的兴起使深度学习的学科分支逐渐形成。多层神经网络结构如图4所示，在输入层和输出层之间增加若干中间层，形成具有多级计算层的神经网络。

医疗大数据领域中运用的深度学习算法模型主要有卷积神经网络（convolutional neural network，CNN）、循环神经网络（recurrent neural network，RNN）、自动编码器（auto-encoder，AE）、深度信念网络（deep belief network，DBN）等，如表2所示。

4 机器学习算法临床应用

4.1 回归分析算法

回归分析算法模拟若干个变量之间的依赖关系，建立这种依赖关系的模型称为回归关系模型，它的主要优点是体现多个自变量对因变量的影响重要度大小，能准确找出对因变量影响大的那些自变量因子。Direkvandmoghadam等 [15]利用单变量logistic回归分析和多变量logistic回归分析研究了2014年伊朗西部伊拉姆卫生中心444名性功能障碍女性患者的患病率与预测变量之间的依赖关系。单变量logistic回归分析结果显示，女性性功能障碍与年龄、初潮年龄、妊娠次数、胎次和受教育程度之间存在显着相关性（P<0.05）;多变量logistic回归分析结果显示，初潮年龄、受教育水平和妊娠次数是导致女性性功能障碍的主要影响变量。Huang等 [16]利用Logistic回归分析了544例具有完整临床数据的食道-贲门癌患者，将是否发生术后吻合口瘘作为结局变量，将潜在危险因素，如年龄、性别、糖尿病史、是否接受腹腔镜手术、吸烟史等作为自变量代入Logistic回归模型，结果显示性别为女性、接受腹腔镜手术、术后出现低蛋白血症和术后肾功能不全是导致术后吻合口瘘的重要影响因素。

4.2 决策树算法

决策树算法是建立在多个策略抉择基础上形成的树状预测模型，它显示特征与分类结果之间的映射关系。Kim等 [17]收集了208例黄疸患儿的核磁共振成像（MRI）数据和超声（US）数据，其中112例患儿有胆道闭锁（BA），96例患儿无BA，患儿平均年龄为58.7天。通过比较并评估这两组患儿的MRI表现和US表现，发现不可见胆总管的MRI表现、胆囊异常以及MRI门静脉周围信号最大直径变化（MR-TCT）是诊断BA的良好鉴别因素，在此基础上利用决策树建立了BA诊断模型，测试结果显示其灵敏度、特异性和准确率分别达到了97.3%，94.8%和96.2%（灵敏度表示模型测试阳性与疾病真实阳性的比值，特异性表示模型测试阴性与疾病真实阴性的比值）。Tayefi等 [18]利用决策树算法建立了一种冠心病预测模型，实验收集2 346例数据，其中1 159例数据由健康者提供，1 187例来自接受过冠状动脉造影患者（其中405例为阴性血管造影，其他782例为阳性血管造影），特征变量采用临床生物标志物和若干已知的传统风险因素结合的10个变量组合，包括年龄、性别、低密度脂蛋白（LDL）、空腹血糖（FBG）、甘油三酯（TG）、收缩压（SBP）、高度敏感的C反应蛋白（hs-CRP）、总胆固醇（TC）、舒张压（DBP）和高密度脂蛋白（HDL），结果显示模型识别冠心病风险因素的准确率较高，灵敏度、特异性和准确率分别达到了96%、87%、94%。此外，研究表明生物标志物hs-CRP是第一位的危险因素，其次是FBG、性别和年龄。

4.3 降低维度算法

降低维度算法是一种非监督学习算法。在机器学习中，过多的特征维度会隐藏数据的真实结构，导致模型出现过拟合。因此，降低过多的特征维度有利于解析数据的真实结构，提高模型的泛化能力。临床上心电图（ECG）信号的细微变化可用于诊断心脏异常，但在心脏疾病的预后中，由于存在噪声，导致从心电信号中提取特征极其困难。Kaur等 [19]提出一种结合扩展卡尔曼滤波器和离散小波变换的混合技术降低噪声，并利用PCA提取ECG信号中R波和QRS波群的特征信号，再利用去噪和特征提取后的ECG信号计算心率，得出心律失常类型。将心率失常分类结果与MIT-BIH心律失常数据库比对，结果显示阳性预测率和检测错误率分别达到99.93%、99.98%和0.079%，显示该方法的灵敏度结果优于其它方法。Zhang等 [20]设计了一种基于缩放频谱图和PLSR方法对心音图（PCG）信号进行分类，研究分为心脏周期评估、频谱图缩放、特征降维和模型分类4个步骤。首先将香农能量进行的心音包络短时平均幅度差作为心脏周期评估标准;其次计算心动周期频谱图作为数据特征维度。由于不同PCG信号计算出的频谱图大小不同，所以对频谱图采用双线性插值得到大小恒定的缩放频谱图，但这些频谱图依然存在大量不相关和重复的信息，因此采用PLSR降低频谱图的特征维度;最后利用SVM对信号进行分类。结果显示该方法与传统的PCG信号分类方法相比，分类效果理想，准确率提高了18%。

4.4 基于内核的算法临床应用

基于内核的算法主要建立一个高阶向量空间，将研究数据通过映射关系输入到高阶向量空间，这样能更容易解决回归和分类问题。SVM是应用最广泛的基于内核的算法模型，它在处理样本量小、维度高、非线性的数据时有很大优势。Suvarna 等 [21]利用SVM建立了一种化学性皮肤灼伤分类器，实验的120例化学性皮肤灼伤图像数据来自医院的图像数据库。首先提取图像中灼伤部位的颜色和纹理特征，根据提取特征将灼伤分为表面灼伤、部分灼伤、全灼伤，再将分类好的灼伤图像数据集均分为3组代入SVM进行训练及测试，结果显示二次核SVM分类效果最好且三组测试结果的灵敏度均超过82%，特异性均超过92%。Soares 等 [22]利用二进制SVM研究血液荧光光谱进行结直肠癌（CRC）识别，然后利用一类SVM（one-class SVM）对之前识别结果中的非CRC样本（异常样本）进行检测，确认异常样本是否存在非恶性病变。研究数据为12 341个血液荧光光谱波长组成的数据集，实验结果显示，CRC检测的灵敏度和特异性分别为0.87和0.95，非恶性检测灵敏度和特异性分别为0.60和0.79。与传统结直肠癌识别方法相比，该方法准确性更高，需要的特征更少，还提供了非恶性病变诊断的扩展检测方法。

4.5 深度学习算法

深度学习主要应用于医学影像分析中。Litjens等 [23]利用深度学习的CNN在苏木素和伊红（H&E）染色切片图像中分别鉴定前列腺癌和诊断检测乳腺癌前哨淋巴结中转移。样本数据集为254名患者的活检切片标本，使用3DHistech Pannoramic 250 Flash II掃描仪将切片标本数字化，再提取相应的小原型图像区域训练CNN，使得CNN能识别数据集中的癌症区域。结果显示前列腺癌鉴定的受试者工作特征曲线（ROC）下面积（AUC）在切片水平上可达到0.99，乳腺癌前哨淋巴结转移检测的AUC达到0.88（AUC是模型分类结果的评价标准，AUC越接近1模型分类越准确）。Xie等 [24]在研究肌肉萎缩疾病的早期诊断中提出了一种空间发条式递归神经网络（空间CW-RNN），该研究的样本数据量为150张骨骼肌显微镜图像。首先把每个图像分成一组非重叠的块状图像，并把图像的2D结构信息编码到每个块状图像中。同时利用结构化回归给块状图像分配预测掩码，进行高效训练，并利用数字化肌肉显微图像测试由空间CW-RNN建立的肌肉分割方法模型。结果显示，空间CW-RNN学习图像全局背景信息用于区分肌内膜、肌萎缩和血管的能力优于多层感知、卷积神经网络等现有技术。

5 结语

人工智能的重要技术之一机器学习广泛应用于医疗领域，海量的医疗数据完美契合了机器学习技术。相比于传统临床诊断，基于机器学习的医疗大数据分析具有时间短、人力资源少、成本低、规避人为误差、诊断速度快的优点，能提供完善的客观性评价和准确性描述，所建立的机器学习模型还可通过學习信息数据得到自我改进，有效提高了临床诊疗水平，促进医疗健康事业发展。

在医疗大数据中，一个结果变量通常对应高维度的特征变量，如何选择临床特征变量是医疗大数据机器学习的重要任务。面对一个确定的结果变量，首先要解决的问题是如何扩大特征范围，分析特征与结果变量的相关性，保留那些相关性大的特征因子，但这种方法存在一定的局限性，如忽略了特征变量之间的组合关系对于结果变量的影响大小。因此，模型算法的选择和参数的优化就显得十分重要。

机器学习模型选择取决于算法所要实现的目标，分类和预测是主要研究目的。在此基础上结合数据集的各种属性，如数据规模、数据结构等，以及现有计算资源、任务进度安排等因素选择合适的模型算法。此外，医疗数据具有高复杂、不完整、冗余程度高的特性，模型的选择趋于多向。因此，比较多个算法的优劣是进行模型算法选择的基础。

所有机器学习模型算法都有合适的参数范围。在逻辑回归中需要确定回归系数，即模型中各个特征变量的权重大小。在决策树中需要选择分类的变量。如何基于特定算法的参数特点寻找最优参数，以此提高模型的泛化能力，是今后研究的重点。

参考文献：

[1] GUOJIE L. Research status and scientific thinking of big data[J]. Bulletin of Chinese Academy of Sciences， 2012（3）：145-149.

[2] 俞国培，包小源，黄新霆，等. 医疗健康大数据的种类、性质及有关问题[J]. 医学信息学杂志， 2014， 35（6）：9-12.

[3] 蔡自兴，徐光祐. 人工智能及其应用[M]. 北京：清华大学出版社， 2004.

[4] SKILTON M，HOVSEPIAN F. Machine Learning[M]. Berlin：Springer，2018.

[5] SUYKENS J A K. Introduction to machine learning[J]. Academic Press Library in Signal Processing， 2014（1）：765-773.

[6] LECUN Y，BENGIO Y，HINTON G. Deep learning [J]. Nature， 2015， 521（7553）：436-439.

[7] MCCULLOCH WS，PITTS W. A logical calculus of the ideas immanent in nervous activity[J]. Bulletin of mathematical biology. Springer，1990（5）：99-115.

[8] ROSENBLATT F. The perceptron-a perceiving and? recognizing automaton[M]. New York： Cornell Aeronautical Laboratory，1957.

[9] 胡越，罗东阳，花奎，等. 关于深度学习的综述与讨论[J]. 智能系统学报，2019（1）：2-9.

[10] LECUN Y. Learning processes in an asymmetric threshold network[M]. Berlin：Springer，1986.

[11] RUMELHART D E， HINTON G E， WILLIAMS R J. Learning representations by back-propagating errors[J]. Nature，1986（323）：533-536.

[12] PARKER DB. Learning logic[R]. Cambridge： Center for Computational Research in Economics and Management Science， Massachusetts Institute of Technology， Technical Report TR-47， MA. 1985.

[13] RUMELHART D， MCCLELLAND J， WILLIAMS R. Learning internal representations by error propagation[M]. Cambridge：MIT Press， 1986：318-362.

[14] HINTON G E， SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks[J].? Science， 2006（1）：504-507.

[15] DIREKVANDMOGHADAM A，SUHRABI Z，AKBARI M，et al. Prevalence and predictive factors of sexual dysfunction in Iranian women： univariate and multivariate logistic regression analyses[J]. Korean Journal of Family Medicine， 2016， 37（5）：293-298.

[16] HUANG J，ZHOU Y，WANG C，et al. Logistic regression analysis of the risk factors of anastomotic fistula after radical resection of esophageal-cardiac cancer[J]. Thoracic Cancer，2017，8（6）：1454-1459.

[17] KIM Y H，KIM M J，SHIN H J，et al. MRI-based decision tree model for diagnosis of biliary atresia[J]. European Radiology， 2018（8）：665-668.

[18] TAYEFI M，TAJFARD M，SAFFAR S，et al. Hs-CRP is strongly associated with coronary heart disease （CHD）：a data mining approach using decision tree algorithm[J]. Computer Methods and Programs in Biomedicine， 2017， 141（6）：105-109.

[19] KAUR H，RAJNI R. On the detection of cardiac arrhythmia with principal component analysis[J]. Wireless Personal Communications， 2017（9）：361-367.

[20] ZHANG W，HAN J，DENG S. Heart sound classification based on scaled spectrogram and partial least squares regression[J].? Biomedical Signal Processing and Control，2017（32）：20-28.

[21] SUVARNA M，VENKATEGOWDA N，DEEPAK L. Classification of chemical skin burn using SVM method[C].? International Conference on Systems in Medicine & Biology，New York：IEEE 2017.

[22] SOARES F，BECKER K，ANZANELLO M J. A hierarchical classifier based on human blood plasma fluorescence for non-invasive colorectal cancer screening[J]. Artificial Intelligence in Medicine， 2017（2）： 592-604.

[23] LITJENS G，SáNCHEZ CI，TIMOFEEVA N，et al. Deep learning as a tool for increased accuracy and efficiency of histopathological diagnosis[J]. Scientific Reports， 2016（6）：262-286.

[24] XIE Y，ZHANG Z，SAPK OTA M，et al. Spatial clockwork recurrent neural network for muscle perimysium segmentation[C]. International Conference on Medical Image Computing & Computer-assisted Intervention，Cham：Springer，2016.

（責任编辑：杜能钢）

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。