网站首页  词典首页

请输入您要查询的论文:

 

标题 多维数据可视化技术研究综述
范文 戚森昱 杜京霖 钱沈申 殷复莲


摘 要:随着大数据技术、信息可视化技术的飞速发展,数据可视化的概念正在不断的演变发展。在对现有研究资料进行分析的基础上,梳理了国内外多维数据可视化领域的成熟技术,并从应用角度对其进行了评价。同时评价了近几年来国内外学者在多维可视化技术方面的研究与应用成果,并展望了多维可视化技术的未来研究方向和挑战。
关键词:数据可视化;多维数据;可视化技术
DOIDOI:10.11907/rjdk.151339
中图分类号:TP301 文献标识码:A 文章编号:1672-7800(2015)007-0015-03
0 引言
近年来,人类产生与获取数据的能力越来越强,储存的信息总量也日益庞大。为了让这些数据得以直观呈现,人类对数据可视化技术的需求日益增加。数据可视化技术是跨领域的技术,被广泛应用于商业智能分析、数据分析、数据挖掘、统计等领域。它也是一门横跨计算机图形学、人机交互、统计学、心理学的综合学科,主要研究如何利用人的感知能力以贴近人类自然感知的图形化展现方式,对数据交互进行可视化表达,以增强人的认知,呈现数据中隐含的信息,发掘数据中所包含的规律[1]。数据可视化目前有3个分支:①科学可视化,主要面向自然科学,如物理、化学、气象、航空航天等,对其数据和模型进行解释、操作与处理,寻找其中的科学规律和异常等;②信息可视化,主要处理非结构化、非几何的抽象数据,如金融交易、社交网络和文本日志数据等,主要关注如何在有限的展现空间中,以直观有效的方式传达大量的抽象信息;③可视化分析,它是以可视交互界面为研究对象的分析推理科学,综合了图形学、数据挖掘分析和人机交互等技术[2]。
多维数据可视化是信息可视化下的子研究领域,是将多维的原始数据或处理后的数据进行直观呈现的技术。目前,多维数据可视化技术被广泛应用于各领域的商业智能分析与辅助决策中。本文将整理比较几种主流的多维数据可视化技术,分析一些基于这些可视化技术的技术迭代与应用实例,并从应用角度评价这些多维数据可视化技术。人类的直观感知能力受限于真实世界,难以直接理解超过三维的多维抽象事物,多维数据可视化技术就是研究如何将多维数据通过各种方法呈现使之成为人类易于理解的二维或三维图形图像。到目前为止,国内外学者在这方面已经提出了很多基础性与迭代的多维可视化技术,根据其可视化原理不同,可将其大致分成基于几何的技术、基于降维映射的技术、基于层次的技术、基于像素的技术、基于图标的技术和基于图形的技术等[3]。
1 基于几何的技术
平行坐标系技术[4]是基于几何的多维数据可视化技术中最具代表性的一个。其基本思想是将多维数据的N个维度属性以等距竖直的N条平行坐标轴的形式来表现,每条平行轴线对应于一个属性维。多维数据的各维属性值在N条坐标轴上都能找到对应的点,将这N个点连接成一条折线,就代表了一个多维数据点。这种方法适用于数据量较小但维数较多的数据集,在离群点的挖掘上有相当好的表现,一旦数据量大到一定程度,折线交叠问题就相当严重,同时在维数较大时,难以分辨各维属性间的相关关系。并且由于人眼的可视范围与最小分辨能力,平行坐标系技术实际上具有维数上限。平行坐标系可视化技术还演化发展出了圆形平行坐标系技术[5]、Radvi[6]以及星型坐标系技术[7]等,弥补了平行坐标系法存在的不足,进一步提升了可视化质量。但是受限于以多条轴线表现多维度空间的基本原理,其在大数据可视化应用中表现一般。
Chambers提出的散点图思想适用于二维或三维数据的可视化,能发掘出两个变量之间的关系与联系。而在多维数据可视化领域,散点图思想衍生出了散点图矩阵。其基本思想是将多维数据的各维变量两两组合作为矩阵中的一个元素,在每一个元素中绘制相应变量的散点图,以此对各维度变量进行两两比较,进而得到隐含的信息。这种方法的一大优点在于不易受到数据集大小的限制,而且由于是从两两比较中获得信息,因而并不一定要求同时将所有元素呈现在视区内,大大降低了因维数增加而导致的可视化难度。但是由于其元素总是在两个维度之间展开,所以在更多维度关系、联系上的挖掘略显疲软。由此衍生出的技术包括Hyperslice方法[8]与Hyperbox[9],前者运用投影的思想,用N-2维的切片来替代散点图矩阵元素,在显示效果上表现突出;后者则用平行四边形代替正方形作为图形元素,虽然有利于调节元素的方向与大小,突出重要变量,但因人为选择各元素的大小与方向,在隐含关系挖掘上表现不佳。除了上述两大类技术外,基于几何的多维可视化技术还包括Andrews曲线法、Star Coordinate法等。基于几何的多维可视化技术在小数量的多维数据集可视化中应用较广且最终图像较为直观易于理解,但即使是对大数据接受程度最好的散点图矩阵技术也难以避免数据点交叠的问题。
2 基于层次的技术和面向像素的技术
基于层次的多维数据可视化技术的基本思想是将多维空间划分为多个子空间,并对这些子空间以层次结构进行组织,并整合呈现在一个图形上。例如嵌套坐标系法[10],其核心思想是把一个坐标系嵌套在另一个坐标系中,在内层坐标系中可视化数据集。数据集点根据其在内层坐标系中的位置,有一组唯一确定的外层坐标系坐标,此坐标即表现更高维数的值。这种方法适用于连续的数据集,但是一旦维数超过一定程度,极容易引起视觉混乱且难以理解各层坐标间的相互关系。从易读性的角度来讲,这是一种门槛较高的多维数据可视化技术。
与基于层次的技术类似,面向像素的多维可视化技术的基本思想是根据多维数据的维数,将高维空间划分成多个子窗格。不同的是它用每一个窗格对应该多维数据集的一个维度,并把每个像素点作为一个多维数据点,在不同的窗格中根据不同的属性值赋予不同的颜色。像素点的位置排布根据需求的不同,可以按照某一属性顺序从左到右逐行排列或从上到下逐列排列,也可以根据数据项与某一属性的关联度从中心发散排列,例如圆形分段技术,将多维数据各属性数据以像素为单位在不同扇形区域内按照顺序从圆心向圆周排列。这些扇形拼合成的一个圆,表示整个高维空间。圆形分段技术兼顾了像素点与属性之间的相关关系顺序和各个维度之间的关系,对一定维数的大数据集的可视化效果极佳,在分类与多维属性相关关系的挖掘上有较好应用。
3 基于图标的技术和基于图形的技术
基于图标的多维数据可视化技术的基本思想是用具有多个易于识别的特征的图标来表达多维度信息,一组图标的每一个特征都可以用来表示多维信息的一维。常用的此类技术有Chernoff面法[11]和星绘法[12]。此类技术适用于维数不多的多维数据集,结果直观,在具有特别维度属性时有特别好的表现。其缺点在于适应度不够高。
在基于图标的可视化技术中,每一个图标(脸谱、星状图)都是一个多维数据点,而基于图形的技术往往可视化呈现得到一张完整的图形,图形中的点与线的类型、大小、颜色等都可以用来表示数据与数据之间的关系。此类技术有多线图法和SurveyPlot等。这类技术适用面较广,可视化结果往往色彩丰富,易于理解。例如有学者通过基于图形的可视化技术,将汽车行驶的多维数据(包括时间、地理坐标、行驶速度、行驶方向等)可视化呈现在一个平面坐标系中[13]。如图1是汽车行驶数据可视化的初步结果,图2是运用彩色映射后得到的前4圈汽车行驶数据的可视化结果。
图1 使用DSAE建立的行车驾驶多维数据集
图2 使用DSAE为训练集建立的驾驶彩色地图(前4圈)
4 基于降维映射的技术
上述方法都是将多维数据集的全部数据进行完整的可视化呈现,基于降维映射的技术与上述不同,其基本思想是将多维数据看作是同一维度空间中的点,其坐标根据相应的维度属性值来确定,再将该维度空间中的点映射到低维可视空间中,同时尽可能保持数据点间的某种关系不变[14]。这种技术包括主成分分析、多维尺度变换、自组织映射、等距映射、局部线性嵌套等。
这种技术通过降维映射,有选择地省略部分维度数据,最终在二、三维空间中尽可能不损失太多信息地可视化呈现数据集。而降维映射可以分成线性(如主成分分析)与非线性降维技术(如自组织映射、等距映射)两大类,基本实现途径有特征选择与特征提取[15]。目前,该技术可分为线性(如主成分分析)与非线性降维技术(如自组织映射、等距映射)两大类。其中特征选择是通过选择现有维度属性中有能力代表其它维度属性的1~3个维度属性(称为优势维),来实现降维映射。而特征提取则适用于没有明显优势维的数据集,对数据集的众多维度属性进行重组来构建优势维,并在此基础上实现降维映射。
该技术因其能在低维空间出色地呈现多维数据集的整体结构与分布,并且支持进一步的数据挖掘,因而得到了广泛应用。近年来,有很多学者对这些技术进行了改进与应用,例如用遗传算法对自组织映射网络进行改进[16],运用自组织映射与聚类算法结合对高维电网数据进行降维[17],改进了主成分分析法并用于多因子地质风险评估中[18],提出了基于等距映射非线性流形学习与加权KNN分类器相结合的旋转机械故障诊断方法[19],等等。图3为学者在文献[19]中,尝试用ISOMAP降维方法得到流形结构并比较选择出最合适的降维方法。
图3 ISOMAP降维方法得到的初始流形结构
5 结语
多维数据可视化从20世纪60年代发展至今,已经积累了大量的研究成果与技术思路,从基于几何的多维数据可视化技术到基于降维映射的可视化技术,人类一直在为突破受限于真实世界的认知能力而努力,但是大部分学者的可视化技术研究仍然习惯于将多维数据放在二维空间进行呈现。相信随着虚拟现实技术的迅猛发展,该问题将得到解决。同时,随着数据挖掘门槛的不断降低,加上商业智能、数据决策支持理念的不断推广,越来越多的非研究人员开始接触到数据可视化技术。如何让可视化结果易读又具有良好的交互性,是亟待解决的问题。相比数据挖掘等相关领域的飞速发展,多维数据可视化的发展水平还亟待提高。伴随着物联网时代的到来,数据可视化领域还将面临更大挑战。有人认为,该领域未来的挑战主要是大数据可视化和以人为中心的探索式可视分析[2];也有人认为,新的可视化技术应用标准应该继续向直观化、关联化、艺术化、交互性等4个方面努力[20]。相信随着各领域对数据可视化新需求的不断增加,数据可视化技术发展将会日新月异。
参考文献:
[1] 张锋军.大数据技术研究综述[J].通信技术,2014(11):1240-1248.
[2] 陈为,沈则潜,陶煜波,等.大数据丛书: 数据可视化[M].北京: 电子工业出版社,2013:29-37.
[3] KEIM DA,ANKERST M.Visual data mining and exploration of largedatabases[Z].Freiburg:PKDD,2001.
[4] INSELBERG A.The plane with parallel coordinates[J].The Visual Computer,1985,1(2):69-91.
[5] HOFFMAN P E.Table visualizations:a formal model and its applications[D].Massachusetts:University of Massachusetts,1999.
[6] HOFFMAN P E,GRINSTEIN G G,MARX K,et al.DNA visual and analytic data minin[C].IEEE Visualization'97,1997.
[7] KANDOGAN E.Visualizingmulti-dimensionalclusters,trends and outliers using star coordinates[Z].San Francisco:KDD 01.CA,2001.
[8] VAN WIJK J J,VAN LIERE R.Hyperslice-visualization of scalarfunction of many variables[C].San Jose:IEEE Visualization'93,1993.
[9] ALPERN B,CARTER L.Hyperbox[C].California:IEEE Visualization'91.1991.
[10] SHAIK J S,YEASIN M.Visualization of high dimensional data u-sing an automated 3d star coordinate system[C].Vancouver:2006 International Joint Conference on Neural Networks Sheraton Vancou-ver Wall Centre Hotel,2006.
[11] CHERNOFF H.The use of faces to represent points in n-dimen-sional space graphically[D].Stanford: Stanford University,1971.
[12] CHAMBERS J M,CLEVELAND W S,KLEINER B,et al.Graphical methods for data analysis[Z].Belmont,CA,1983.
[13] HAILONG LIU,TADAHIRO TANIGUCHI,TOSIAKI TAKANO,et al.Visualization of driving behavior using deep sparse autoencoder[C].Michigan:2014 IEEE Intelligent Vehicles Symposium (IV),2014.
[14] 孙扬,封孝生,唐九阳,等.多维可视化技术综述[J].计算机科学,2008(11):1-7,59.
[15] 宋枫溪,高秀梅,刘树海,等.统计模式识别中的维数削减与低损降维[J].计算机学报,2005(11):159-166.
[16] 任军号,吉沛琦,耿跃.SOM神经网络改进及在遥感图像分类中的应用[J].计算机应用研究,2011(3):1170-1172,1182.
[17] GUO XIAO-LI,FENG LI,GUO PING.Research and application n visual data mining based on SOM clustering[J].Journal of Convergence Information Technology,2013,8(2):695-703.
[18] 盛秀杰,金之钧,王义刚.一种新的面向多元统计分析的信息可视化技术[J].石油地球物理勘探,2013(3):488-496,506.
[19] 陈法法,汤宝平,苏祖强.基于等距映射与加权KNN的旋转机械故障诊断[J].仪器仪表学报,2013(1):215-220.
[20] 张浩,郭灿.数据可视化技术应用趋势与分类研究[J].软件导刊,2012(5):169-172.
责任编辑(责任编辑:孙 娟)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 12:22:00