标题 | 原始对偶有效集方法在统计学习教学中的应用 |
范文 | 石跃勇 邓世容 焦雨领 徐德义 [摘 要]以统计学习(statistical learning)课程中基于高维线性模型的LASSO正则化为例,项目组给出了其基于原始对偶有效集(primal dual active set)方法的求解过程,并进行了相应的实证分析,期望培养学生对统计学习课程的学习兴趣和应用新近文献方法进行高维数据分析的实践经验。 [关键词]原始对偶有效集方法; 高维稀疏; LASSO正则化;实证分析 [中图分类号] G642 [文献标识码] A [文章编号] 2095-3437(2019)05-0101-03 一、引言 大数据的兴起和普遍,引起了学界和业界日益广泛的重视[1-2]。在大数据时代,如在气候研究、网络交易、图像处理等诸多领域,人们可以轻松获得PB级、EB级、ZB级甚至更大量级的海量数据。直观上看,大数据具有样本量大或维度高等显著特点。如何对大数据进行建模和分析,提取蕴藏其中的有用信息,进而指导实际生产生活有着重要的现實意义。然而,大数据由于存在Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)等特性[2],给相应的存储、分析和应用带来了巨大的挑战。特别地,有一类特殊的大数据,其具有很高的维度(可以达到数万、数十万甚至更高),而样本量往往只有数十至数百,通常还具有复杂的结构,我们称之为高维数据。数据的高维度一方面可以反映研究对象更多的特征和属性,可能使得相关的数据分析更能接近事物的本原,但另一方面也会产生“维数灾难”( the curse of dimensionality)[3],可能会带来较为严重的过拟合(over-fitting)或不适定性(ill-posed)等诸多问题。所幸的是,在实际问题中,高维数据通常具有所谓的稀疏性结构,即影响某种结果的因素有很多,但关键影响因素却较少。基于稀疏性假设,人们可以借助于统计学习(机器学习)中的正则化方法[3]对高维数据进行建模、分析和应用。 正则化方法是处理高维数据的利器,也是统计学习(机器学习)等学科的重要内容,其模型、理论和计算等方面的研究是人们关注的焦点[1,3]。由于实际问题中高维数据不断地、大量地涌现,当下一个重要的发展趋势是:人们在进行数据分析和统计计算时,越来越注重快速算法的导向,即兼顾统计性质(如无偏性、相合性等[4])和数学收敛的同时,在保证精度(估计误差、预测误差等)相当的前提下,希望设计高效的算法使得计算速度越快越好。这一趋势在大数据高速发展的大背景下日益显著和越发重要,可在此基础上进一步研究适用于分布式环境下的稀疏化学习理论和算法。 统计学习是一套以理解数据为目的的庞大工具集[5],其研究对象和内容与模式识别、机器学习、数据挖掘等学科有大量的交叉和重叠,是数据科学的重要组成部分,广泛应用于社会生活的各个方面。在当前大数据研究蓬勃发展的大背景下,统计学习的课堂教学和学科发展的研究显得尤为重要。鉴于统计学习学科具有日新月异、发展迅速等特点,在统计学习的教学过程中,一个重要的趋势是,除了讲授经典的理论和方法,还应当引导学生阅读新近的文献,鼓励学生运用文献中新的建模和计算方法开展数据分析与应用,并结合Julia、Matlab、Python或R等软件进行相应的数值模拟和实证分析。特别地,R (https://www.r-project.org/)作为一款自由的编程软件,提供大量最新的开源的方法和算法程序包,社区成熟,参与者众多,在Linux、Mac、Windows平台下均可方便地进行安装和使用,深受学界欢迎。学生在统计学习课程中学习使用 R 软件,熟练掌握R技能,并将所学方法用R编程实现,有助于其更为深刻地联系理论和理解问题,且能够更为有效地拓展实际应用,提高学习的兴趣和实战的能力[6]。 线性模型是研究其他统计模型的基础,线性模型正则化[3,5]的理论和计算是统计学习的基本内容和研究热点,其中又以LASSO正则化(即[?1]正则化)模型尤为重要,因为LASSO正则化模型的求解属于凸优化问题,凸性可以保证模型的解具有良好的理论分析性质和数值收敛结果。LASSO正则化在压缩感知(信号、图像处理)和变量选择(高维特征降维)的建模和计算中均得到了广泛的应用。本文使用文献[7]中发展的原始对偶有效集方法,对高维线性模型的LASSO正则化问题进行了应用,对一组高维基因微阵列数据进行了变量选择实证分析,并将计算结果与著名的R统计软件包glmnet进行比较,在开阔学生视野、拓宽研究思路、丰富学习内容的同时,期望加深学生对正则化模型及其计算的理解。 二、模型与方法 其中[y∈Rn]是响应变量,[X∈Rn×p]是设计矩阵,[β∈Rp]是待估系数向量,[ò∈Rn]是噪声向量。不失一般性,我们考虑噪声满足正态(高斯)分布[ò~N(0, σ2In)],这里[In]表示[n×n]单位矩阵。进一步地,我们设定数据满足高维情形[p>n],并假设向量[β]的非零分量个数是稀疏的。由于[p>n],传统的统计方法(如最小二乘)对求解模型(1)的参数估计已不再适用,因为得到的解不是唯一的。基于稀疏性假设,我们考虑高维线性模型的LASSO正则化如下: 其中[?]和[‖?‖1]分别表示欧式范数([?2]范数)和[?1]范数,[λ>0]为调节参数(正则化参数)。问题的求解可以直接调用R软件中广受欢迎的glmnet软件包[3],该包基于坐标下降(coordinate descent)算法,可以求解线性模型和logistic模型的[?1]正则化问题,具体使用方法可以查阅软件包的参考手册或教材[5]第6章第6.6节实验2的内容。 文献[7]发展了一种原始对偶有效集方法并结合一种连续化策略求解问题(2),方法英文简记为PDASC。该方法在压缩感知(一维信号和二维磁共振图像)中进行了有效的应用,其主要步骤概括为: 1.基于问题中目标泛函[Qβ]的坐标极小值[β*](原始变量)给出对偶变量[d*=XT(y-Xβ*)],且对LASSO模型给出关系表达式[β*=Sλ(β*+d*)],其中[Sλ(t)=max(|t|-λ,0)sgn(t)]为软阈值算子; 2.对LASSO模型有[|β*j+d*j|>T*?β*j≠0]成立,其中[T*=λ],从而可以构造有效集[A*=j:|β*j+d*j|> T*]和非有效集[I*=(A*)c]; 3.设[βk]和[dk]分别逼近[β*]和[d*],基于[βk]和[dk]得到[Ak+1=j:|βkj+dkj|> T*]和[Ik+1=(Ak+1)c],根据构造知[Ak+1]和[Ik+1]分别逼近[A*]和[I*],再基于[Ak+1]和[Ik+1]求解一个低维最小二乘问题得到[βk+1]和[dk+1],对[k]作循环,设置停机准则([Ak=Ak+1]或[k≥K],[K]为某个正整数),得到一个给定[λ]的估计[β(λ)=βk+1]; 4.考慮一串[λ]格子点序列[λss],其中[λs=λ0ρs],[λ0=||XTy||∞],[0<ρ<1],对于每个[λs]用步骤3得到估计[β(λs)],再结合连续化策略(continuation strategy)得到整个解的路径[{β(λs)}s],最后根据BIC或HBIC等调节参数选择准则选择最优的[λ]和最优的解[β(λ)]。 可以看出,PDASC方法操作简便、实施简单,关键之处是同时利用原始变量和对偶变量的信息确定一个有效集(相比之下,经典的LARS方法仅仅使用了对偶变量的信息),然后在有效集上求解一个低维问题。PDAS算法具有局部超线性的收敛速度,而连续化策略可以使得问题的求解具有良好的初值(因为PDAS方法属于Newton型算法,其收敛性依赖于初值的选取),再配合PDAS算法的局部超线性收敛性,可以使得整体的PDASC步骤计算速度非常快。特别地,在理论上,文献[7]在LASSO正则化下证明了PDAS的局部一步收敛性(推广了现有的局部超线性收敛结果),并且在压缩感知框架下证明了PDASC对于LASSO模型的全局收敛性。更多关于PDASC方法的理论细节和实施步骤(算法伪代码、调节参数选择准则等)参见文献[7]。在高通量生物医学研究中,例如基因关联研究和基因表达研究,基于正则化的变量选择方法被大量应用,而设计具有较高精度的快速算法求解相应正则化问题是应用的关键。在下一节,我们运用PDASC方法对DNA微阵列基因表达数据在高维LASSO模型框架下展开计算和分析,以期望获得较为合理的具有一定生物学意义的结果。 三、实证分析 根据文献[8],我们对ISLR软件包[5]中的NCI60微阵列数据进行实证分析,主要目标是在高维LASSO模型框架下比较glmnet和PDASC两种方法的计算速度和精度。NCI60数据包含了来自64个癌细胞系的6830个基因的表达水平,关于该数据的更多信息可在网站http://genome-www.stanford.edu/nci60/ 上获取。我们的研究目的是考察第1个基因和余下所有基因的关系。在线性模型(1)下,该数据的响应变量[y]是长度为64的数值向量,其给出了第1个基因的表达水平;设计矩阵[X]是维度为[ 64 × 6829]的矩阵,其表示了剩余的6829个基因的表达水平。故该数据有[n=64],[p=6829],满足[p>n],从而是一个高维数据,于是我们在正则化模型(2)下求解问题。对于glmnet和PDASC两种计算方法,我们均采用文献[9]中的voting准则选择调节参数[λ]。对于两种方法(Method),我们采用的比较指标包括计算时间(Time,单位:秒)、模型大小(MS,即非零元素个数)、预测误差(PE)和选择的基因(Gene,即设计矩阵[X]对应的列),其中Time为速度指标,其余为精度指标,结果如表1所示。由表1可知,PDASC的PE比glmnet大,但计算速度比glmnet快,且选择的基因个数比glmnet少。由表1还可知,PDASC选择的基因集合是glmnet选择基因集的真子集,这说明了PDASC基因集具有一定的显著性和代表性。我们在表2中列出了两种方法相同基因的估计系数,发现虽然两种方法给出的估计系数绝对值不同,但符号相同,说明二者表达的生物学意义是一样的。特别地,表2中PDASC给出的Gene估计系数绝对值要比glmnet给出的大,注意到PDASC基因集比glmnet基因集小,从而在一定意义上说明PDASC方法可以更为集中而精确地选择到显著的自变量集。 值得注意的是,为了使结果更具有说服力,还应该使用两种方法对NCI60数据分析作交叉验证(cross validation),以获得更为稳健的速度和精度结果,可参考教材[5]第6章第6.6节实验2的相关内容。 四、结语 本文对统计学习课程中基于高维线性模型的LASSO正则化的计算问题进行了拓展训练,结合统计学习学科发展迅速的特点,通过引入文献中一种新的原始对偶有效集方法对高维基因微阵列数据作实证分析,并与著名的glmnet包的计算结果进行了比较。 通过本文内容的介绍和实证,我们希望抛砖引玉,引导同学们在学习教材内容的同时,更加注重将课本知识与最新的科研方法相结合,多检索、多思考、多动手,为以后在学界从事科研教学或在业界进行数据挖掘工作打下良好的基础。 与此同时,除了学生们的“学”,我们认为大数据时代下统计学习学科的快速发展也对老师们的“教”提出了新的更高的要求。广大教师必须要更加切实地转变教学思想,目标和眼界要聚焦于领袖学校和行业巨头的发展动态,不断适应社会发展,及时更新统计学习教材,运用多种教学方法和软件手段来培养学生的学习兴趣和操作经验,鼓励学生更加注重案例分析和社会实践,巩固学生掌握传统经典知识的同时,把握好“课堂所学”与“社会所需”之间的紧密联系,激发学生大胆探索适应大数据时代发展的新思想、新理论、新方法和新应用。 [ 参 考 文 献 ] [1] 焦雨领.稀疏约束下反问题理论与算法的研究[D].武汉:武汉大学博士学位论文,2014. [2] 徐德义,林志恒.对大数据时代大学统计教学的认识与思考[J].大学教育,2015(11):183-184. [3] Hastie, T, Tibshirani, R, Friedman, J. Elements of statistical learning: data mining, inference, and prediction (second edition)[M]. Springer, 2009. [4] 鄭明,陈子毅,汪嘉冈.数理统计讲义[M].上海:复旦大学出版社,2006. [5] [美]詹姆斯(James, G.)等著,王星等译. 统计学习导论——基于R应用[M].北京:机械工业出版社,2015. [6] 邓世容,石跃勇.蒙特卡洛方法在概率论与数理统计教学中的应用[J].科教导刊(上旬刊),2018(1):111-112. [7] Fan Q, Jiao Y, Lu X. A primal dual active set algorithm with continuation for compressed sensing[J]. IEEE Transactions on Signal Processing, 2014, 62(23):6276-6285. [8] Shi Y, Cao Y, Yu J, Jiao Y. High-dimensional variable selection with the generalized SELO penalty [J].Jounal of Mathematics, 2018, 38(6), 900-998. [9] Huang J, Jiao Y, Lu X, Zhu L. Robust decoding from 1-bit compressive sampling with ordinary and regularized least squares [J]. SIAM Journal on Scientific Computing, 2018, 40(4):A2062-A2086. [责任编辑:林志恒] |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。