网站首页  词典首页

请输入您要查询的论文:

 

标题 多视图聚类算法综述
范文

    何雪梅

    摘 要:在大数据时代,数据是由不同来源生成的,或者是从不同视图中观察得到的,这些数据被称为多视图数据。在数据挖掘与分析中,充分发挥知识在多视图数据中的作用是非常重要的,因此需要在融合相关数据的同时,考虑不同视图的多样性。近年来,多视图聚类(MvC)受到越来越多学者关注,根据其涉及的机制和原则,将多视图聚类算法分为5类,即协同训练算法、多核学习、多视图聚类、多视图子空间聚类与多任务多视图聚类。对多视图聚类算法进行介绍,并重点介绍了协同训练算法与多核学习。

    关键词:数据挖掘;聚类分析;多视图聚类;协同训练;多核学习

    DOI:10. 11907/rjdk. 182831

    中图分类号:TP312文献标识码:A文章编号:1672-7800(2019)004-0079-03

    0 引言

    在如今信息爆炸的时代,数据量也不断增加。在众多数据中,如何找出其中的有用信息成为人们关注的重点。数据挖掘技术作为大数据处理及信息挖掘的重要手段,已得到了广泛应用。聚类分析[1]是根据数据对象间的关系将集合分割成多个簇(Cluster)的过程,并将距离近的数据对象划分到同一个簇中,将距离远的数据对象划分到不同簇。因此,可以通过相似性对数据进行划分,得到更为准确的聚类结果。如果从机器学习层面进行解释,聚类分析是一种无监督学习 (Unsupervised Learning)方法,可以对标签信息未知的数据进行聚类等操作,从而提取出有用信息。

    随着如今对数据信息化的要求越来越高,仅从单一视图描述数据已无法得到预期效果,因此多视图数据(Multi-view Data)聚类问题成为学者们的研究重点。聚类由一个视图组成的数据称为单视图聚类(Single-view Clustering),而多视图聚类(Multi-view Clustering)则是用聚类方法处理多视图数据。随着网络信息化的快速发展,越来越多的多视图数据在实际中得到应用。例如:对于同一种数据,可以根据该数据的不同特征进行划分,每种特征代表一种视图数据;对于网页大数据,可通过文本或网页链接的形式获取数据,从而构成两个视图的多视图数据。已有聚类算法通常仅适用于单视图数据,因此本文在传统算法基础上进行扩展,得到多视图聚类算法,即从多个视图出发,充分利用视图内与视图间的关系,不仅分析视图间的一致性,也分析視图间的差异性,从而充分运用多视图中的所有有效信息,使聚类结果更加准确。

    1 多视图聚类

    过去几十年来,研究者们已提出许多先进的聚类算法。虽然这些聚类算法在某种程度上已非常成功,但其中大部分算法仅适用于单视图数据。即使将所有视图连接成一个视图,然后在该单一视图上采用最先进的聚类算法,也无法提高聚类性能,因为每个视图都具有其特定的统计特性,所以该方式在物理上没有意义。相比之下,多视图聚类(Multi view Clusteing,MvC)通过考虑不同视图的多样性和互补性,可有效处理多视图数据。作为一种先进的聚类模式,MvC近年来受到越来越多学者关注。

    由于多视图数据不同视图间既具有内在联系又存在差异,因此充分、合理地利用多视图数据中的信息是提升多视角学习性能的关键。为了更好地挖掘出其中的信息,多视图算法一般需遵循两个原则[2]:一致性原则和互补性原则。本文根据多视图聚类算法原则将其分为5类,即协同训练算法、多内核学习、多视图图形聚类、多视图子空间聚类、多任务多视图聚类。

    1.1 协同训练

    在多视图协商一致的情况下,本文研究了协同训练算法。该方法旨在最大限度地扩展所有观点的相互协议,并达成最广泛的共识。协同训练算法一般过程如图1所示,根据该过程对算法进行交替训练,利用先验信息或相互学习知识,使两种不同视图的一致性最大化。

    在无监督学习中,Bickel&Scheffer[3]首次利用协同训练思想研究了MvC,并提出两种用于文本数据的MvC算法。一种是多视图EM算法,其在视图之间交替工作,另一种是受协同训练启发的凝聚算法。最后得出结论,多视图EM算法显著优于单视图算法,但凝聚算法会导致负面结果;Tzortzis&Likas[4]提出一种加权多视图凸混合模型,该模型通过EM自动为视图分配权重;Kumar等[5]进一步提出用于多视图谱聚类的共规则化方法;文献[6]中提出一种适用于MvC的共正则化概率潜语义分析(PLSA)模型。其核心思想是,一个视图主题空间中的样本相似性应与另一个视图一致;为了解决视图之间部分映射(即不完整视图)的挑战,文献[7]、[8]研究了具有成对约束传播的CO-EM多视图约束聚类,即使用CO-EM迭代估计每个视图中的传播,跨视图传递给定的成对约束,更新聚类模型,最后学习所有视图的统一聚类结果。

    此外,部分学者还研究了基于共聚类的MvC。例如,Meng等 [9]提出一种异构数据协同聚类方法,其不仅可以将融合从两个视图扩展到多个视图,还可以对多个数据源特征进行加权。在矩阵分解的基础上,Sun等[10]提出一种近端交替线性最小化算法,该算法可以同时将多个数据矩阵分解为稀疏的行和列向量,并使用二进制向量链接不同数据视图,其中二进制向量可强制保持所有视图行簇的一致性。

    1.2 多核学习

    最初开发多核学习是为了提高可能的内核函数[11](例如:线性内核、多项式内核及高斯内核)的搜索空间容量,以实现良好的泛化性。由于多核学习中的内核自然对应于不同视图,因此多核学习被广泛应用于处理多视图数据。多核学习方法一般过程如图2所示,其中使用不同的预定义内核处理不同视图,然后将其进行内核线性或非线性组合,以便得到一个统一内核。在MvC设置中,基于多核学习的MvC希望能最优地组合一组预定义内核,以便提高聚类性能。在该方法中,一个基本问题是找到一种方法以选择合适的核函数,并将这些核采用最优方式组合起来。

    在单视图场景中,Zhao等[12]提出一种基于最大边缘聚类的多核聚类算法,该算法可以同时找到最大边缘超平面、最佳聚类和最优核;Du等[13]提出一种多核k均值算法,该算法能够同时找到最优聚类标签、聚类隶属度和多核最优组合。值得强调的是,上述算法可以在图4所示框架下处理多视图数据。在多视图场景中,De Sa等[14]构建了一种基于最小分歧算法的自定义核组合方法,其生成了一个多分图以诱导内核,然后将其用于谱聚类。该方法实际上可看作核正则相关分析的变体,是共聚类与谱聚类的推广。此外,Yu等[15]将经典的K均值聚类扩展到Hilbert空间,将多视图数据矩阵表示为核矩阵,然后将其自动组合后进行数据融合。

    通过考虑视图间的差异,部分学者还研究了具有内核加权组合的方法。例如,文献[16]提出一种系统化的MvC方法,可通过优化过程自动分配权重,导出每个视图上的核矩阵,其中核矩阵学习基于核对齐,以测量两个核矩阵之间的相似度。此外,Liu等[17]展示了一种基于矩阵诱导正则化的加权多核K-means聚类方法,可以减少冗余核并增强预定核的多样性;Zhao等 [18]提出一种基于改进变权高斯核的加权MvC算法。

    然而,在许多应用程序中,一些视图上的数据不可用或仅部分可用的情况是十分常见的,从而导致不完整的多视图数据。为解决该问题,Trivedi等[19]提出一种通用方法,允许MvC在完整视图设置下适用于该场景,在该场景中只有一个视图是完整的,而辅助视图不完整,并以基于内核CCA的MvC为例进行说明;De Sa等提出一种基于最小分岐算法,可以计算具有缺失视图的样本关系;在缺乏完整视图的环境中,Shao等[20]提出一个集体核学习算法,以推断隐藏样本的相似性。

    1.3 多视图图聚类

    图形(或网络)广泛用于表示对象之间的关系,其中每个节点都与数据对象相对应,并且每个边描绘一对对象之间的关系。在实践中,该关系通常用相似性或亲缘关系表示,即输入图矩阵是由数据相似性矩阵生成的。在多视图场景中,数据对象由多个图进行捕获。一个常见假设是每个单独的图可以捕获数据部分信息,而所有图形都具有相同的基础数据聚类结构。因此,这些图可以通过合并数据对象之间的关系以相互增强。多视图图聚类的目的是在所有视图中找到一个融合图,然后在融合图上应用图形切割算法或其它技术(如谱聚类[21]),产生最终的聚类结果。

    1.4 多视图子空间聚类

    多视图子空间聚类[22]是对所有视图数据,从多个子空间或潜在空间学习一种新的、统一的表示,使其在建立聚类模型时更容易处理高维数据。在MvC领域,多视图子空间聚类已成为一个热门话题。多视图子空间聚类通过以下两种方式获得统一的特征表示:①直接从多个子空间中获取单一表示;②首先学习一个潜在空间,然后到达该统一表示。最后,这种统一表示被输入到现成的聚类模型中,以产生聚类结果。

    1.5 多任务多视图聚类

    如上文所述,MvC利用不同视图之间的一致性和互补性以实现更好的聚类质量。多任务聚类(属于多任务学习领域[23])一起执行多个相关任务,并利用这些任务之间的关系增强单视图数据的聚类性能。通过继承MvC和多任务聚类的属性,多任务多视图聚类(Multi-task Multi-View Clustering,M2vC)通过一个或多个任务处理单个视图数据。M2vC的主要挑战包括在每个视图上找到一种任务内聚类建模方法,以及一种利用多任务与多视图关系的方法,同时对任务间的知识进行相互传递。

    2 結语

    虽然MvC是在2003年左右提出的,但尚无一个统一标准决定在所有聚类算法中,哪种算法最优,因为不同方法有其各自的优缺点。协同训练算法可通过交换信息以交互式地增强不同视图聚类。然而,当视图数量大于3时,这些数据很难进行处理;基于核的MvC继承了内核的优点,但同时也带来了较高的计算复杂度;多视图图聚类引入谱图理论,并依赖于构造的相似性矩阵;多视图子空间聚类方法具有直观的可解释性与初始化依赖性;多任务多视图继承了多任务聚类与多视图聚类的特性,但其仍然处于起步阶段。

    目前对MvC的研究已成为热点,但其仍面临以下问题和挑战:①视图正确性。找到一种判断视图是否正确的方法对于MVC而言是至关重要的,因此为了确保MvC的有效性,必须在很大程度上解决该问题;②不完整MvC的问题。在现实生活中,数据丢失的情况频繁发生,而对于不完整MvC的研究还不多见,未来将对不完整MvC作进一步研究。

    参考文献:

    [1] 曹凯迪. 聚类分析综述[J]. 智慧健康,2016(10):50-53.

    [2] AGGARWAL C C,REDDY C K. Data clustering : algorithms and applications[M]. Data Clustering: Algorithms and Applications. Chapman & Hall/CRC, 2013.

    [3] BICKEL S,SCHEFFER T. Multi-view clustering[C]. IEEE International Conference on Data Mining,2004.

    [4] TZORTZIS G F,LIKAS A C. Multiple view clustering using a weighted combination of exemplar-based mixture models[J]. IEEE Transactions on Neural Networks, 2010, 21(12):1925-1938.

    [5] KUMAR A,RAI P,DAUMé III H. Co-regularized multi-view spectral clustering[C]. Proceedings of the 24th International Conference on Neural Information Processing Systems, 2011.

    [6] JIANG Y,LIU J,LI Z,et al. Co-regularized PLSA for multi-view clustering[C]. Asian Conference on Computer Vision, 2012.

    [7] EATON E,DESJARDINS M,JACOB S. Multi-view clustering with constraint propagation for learning with an incomplete mapping between views[C]. Toronto:Proceedings of the 19th ACM Conference on Information and Knowledge Management,2010.

    [8] EATON E,DESJARDINS M,JACOB S. Multi-view constrained clustering with an incomplete mapping between views[J].? Knowledge and Information Systems,2014,38(1):231-257.

    [9] MENG L,TAN A H,XU D. Semi-supervised heterogeneous fusion for multimedia data co-clustering[J]. IEEE Transactions on Knowledge and Data Engineering, 2014, 26(9):2293-2306.

    [10] SUN J W,LU J,XU T Y,et al.Multi-view sparse co-clustering via proximal alternating linearized minimization[C]. Proceedings 32nd International Conference Machine Learning, Lille, France, 2015:757-766.

    [11] 张佩瑞,杨燕,邢焕来,等. 多核学习的多视图增量聚类模型研究[D]. 成都:西南交通大学,2017.

    [12] ZHAO B,KWOK J T,ZHANG C S. Multiple kernel clustering[C]. Proceedings 2009 SIAM International Conference on Data Mining, 2009:638-649.

    [13] DU L, ZHOU P, SHI L,et al. Robust multiple kernel K-means using 2;1-norm[C]. International Conference on Artificial Intelligence,2015:3476-3482.

    [14] SA V R, GALLAGHER P W, LEWIS J M,et al. Multi-view kernel construction[J]. Machine Learning,2010,79(1):47-71.

    [15] YU S, TRANCHEVENT L C, LIU X, et al. Optimized data fusion for kernel K-means clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(5):1031-1039.

    [16] LU Y,WANG L,LU J, et al. Multiple kernel clustering based on centered kernel alignment[J]. Pattern Recognition, 2014, 47(11):3656-3664.

    [17] LIU X,DOU Y,YIN J,et al. Multiple kernel k-means clustering with matrix-induced regularization[C]. Thirtieth AAAI Conference on Artificial Intelligence. AAAI Press, 2016.

    [18] ZHAO Y,DOU Y,LIU X, et al. A novel multi-view clustering method via low-rank and matrix-induced regularization[J]. Neurocomputing,2016,216:342-350.

    [19] TRIVEDI A,RAI P,DAUM'E H,et al. Multiview clustering with incomplete views[C].? Whistler:Proceedings of Workshop on Machine Learning for Social Computing,2010.

    [20] SHAO W,SHI X,YU P S.? Clustering on multiple incomplete datasets via collective kernel learning[C]. Proceedings 13th International Conference Data Mining,2013:1181-1186.

    [21] 陳新泉,周灵晶,刘耀中. 聚类算法研究综述[J]. 集成技术,2017,3(6):41-49.

    [22] YAN Y,WANG H. Multi-view clustering: a survey[J]. Big Data Mining and Analytics, 2018(2):83-107.

    [23] CARUANA R. Multitask learning[J]. Machine Learning,1997, 28(1):41-75.

    (责任编辑:黄 健)

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/10 16:43:07