标题 基于双随机森林的透析病患白蛋白缺失值估计
范文 李建春 李智 万里 李健
摘 要:数据缺失是临床试验中常见但又不可避免的问题之一。由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上。提出一种基于随机森林与聚类方法结合的算法——双随机森林回归法,并将该算法应用于估计白蛋白缺失值。在准确率和鲁棒性方面,双随机森林回归法相比于最近邻法、决策树与随机森林方法,均有不同程度提高。该算法为缺失值的有效处理提供了一种新思路,可以为其它的缺失值估计研究提供参考。
文献标识码:A 文章编号:1672-7800(2018)005-0124-03
Abstract:Data missing is a common problem in clinical trials. The indicator of the albumin (ALB) is very important since it is associated with prognosis and mortality in patients with renal failure. And due to lack of medical equipment or patients ignorance of the detection of albumin, the value of albumin may be missed. With the widespread application of machine learning, many researchers have applied machine learning to the estimation of missing data in order to improve the quality of the dataset, and their work have got good results. In this paper, the method based on random forest and clustering and twice random forest, that is, Random forest regression-Kmeans-Random forest regression, RKR is proposed to apply this algorithm to estimate the albumin deletion value.The principle of the algorithm is to make use of the advantages of random forests in predicting nonlinear datasets. The process is divided into three parts. The first part is using the random forest regression method to impute the missing data of albumin. The second part is using the cluster method, Kmeans method, to cluster the dataset into six classes. Last but not the least, the third part is reusing the random forest regression method to impute the missing data of albumin. In terms of accuracy and robustness, the method performs better than the nearest neighbor regression method, decision regression tree and the random forest regression method. The algorithm provides a new approach for the efficient processing of missing values, which can be used as a reference for other researchers who study the estimation of missing values.
Key Words:hemodialysis; albumin; random forest; missing value; data missing
0 引言
数据缺失是临床试验中常见但又不可避免的问题之一。白蛋白(ALB)对于肾衰病人是一个非常重要的指标,与肾衰病人的预后和死亡率有一定关联[1-4]。而由于医疗设备欠缺或者病患忽略检测白蛋白,可能造成白蛋白指标缺失。随着机器学习的广泛应用,很多研究者将机器学习应用在缺失数据估计上,如多元线性回归、最近邻法(K-Nearest Neighbor,KNN)、贝叶斯主成分分析法(Bayesian Principal Component Analysis,BPCA)[11]及决策树(Decision Tree,DT)[5-8]等。但这些方法没有充分利用患者检查数据的特殊性,估计精度不高[10-12]。随机森林(Random Forest,RF)基于DT算法,其优势在于克服了DT存在的過拟合问题,为解决数据缺失提供了一种可行的手段。然而,它也存在以下两个问题:①随机森林(Random Forest,RF)[9]回归预测使用的最终预测值是取各个子树的平均值,因而带来一定误差;②很多研究者在估计缺失值时,未考虑缺失值特征带来的影响,只对缺失值进行预测,因而又将一部分误差引入[14-15]。
针对上述问题,本文提出一种将随机森林和K均值聚类相结合的缺失值估计方法,即双随机森林回归法(Random Forest Regression-Kmeans-Random Forest Regression,RKR),并使用归一化均方误差(Normalized Mean Square Error,NMSE)[13]、标准均方根误差(Normalized Root Mean Square Deviation,NRMSD)[6]度量算法的准确度与稳定性。
1 基本原理与方法
1.1 双随机森林(RKR)方法
双随机森林(RKR)是将随机森林与K均值聚类方法融合的一种方法。首先使用随机森林回归(Random Forest Regression,RFR)对空缺值进行第一次估计,从而填补空缺值,进行Kmeans均值聚类。实验发现,聚类6个簇时效果最好。得到6个子样本后,在含有空缺值的子样本内,再次进行随机森林回归(Random Forest Regression,RFR)估计缺失值。实验结果表明,该算法可以有效提升缺失值估计的准确率。
具体分为以下步骤:①首先获取完整的数据集DataSet0,随机挑选指定比例的记录,组成训练集DataSetTrain,将剩下部分预测指标中的值清空,组成测试集DataSetTest;②使用随机森林(Random Forest,RF)训练数据集DataSetTrain,对DataSetTest估计缺失值,得到新数据集DataSetTest1。将DataSetTest1与DataSetTrain合并成新的测试集DataSet1,使用K均值聚类方法将DataSet1分为6个聚类,DataCluster0、DataCluster1、DataCluster2、DataCluster3、DataCluster4、DataCluster5;③將DataCluster0中也存在于DataSetTest1记录预测指标中的值清空,将DataCluster0中预测指标不为空的记录挑选出来,组成DataClusterTrain0,剩下的记录组成DataClusterTest0;④使用随机森林(Random Forest,RF)训练数据集DataClusterTrain0,对DataClusterTest0预测指标缺失值,将预测值放入数据集DataSetPredicted;⑤对DataCluster1-DataCluster5重复步骤③、④。
2 实验结果及分析
总共进行了5次试验,采用的对比算法有:K近邻回归(KNeighbors Regressor,KNR)、决策树回归(DecisionTree Regressor,DTR)、随机森林回归(Random Forest Regressor,RFR)与本文提出的双随机森林法回归(Random Forest Regressor-Kmeans-Random Forest Regressor,RKR)。4种算法分别在测试集为1%、5%、10%、15%、20%进行缺失值估计,并使用归一化均方误差(NMSE)、标准均方根误差(NRMSD)度量算法的准确度与稳定性。
2.1 实验数据
2.2 实验结果
3 结语
