标题 | 可视化信息检索研究文献的量化可视分析 |
范文 | 闫丽光 [摘要]文章利用当前最著名的可视化分析软件Citespace Ⅱ对从SCI与SSCI中下载的1989-2010年间可视化信息检索研究的全部文献做了详细的可视化分析,描述了可视化信息检索研究的发展轨迹,揭示了其研究热点的变化情况,分析了此项研究的国家与研究机构分布情况。 〔关键词〕可视化信息检索;Citespace Ⅱ;共引网络图谱 DOI:10.3969/j.issn.1008-0821.2011.03.030 〔中图分类号〕G350 〔文献标识码〕A 〔文章编号〕1008-0821(2011)03-0122-05 International Visualization Information Retrieval Research Literature Visualization Analysis:1998-2010Yan Liguang (Library,Hebei Normal University of Science & Technology,Changli 066600,China) 〔Abstract〕The article use current most famous visualization analysis software Citespace Ⅱ pair during 1989-2010 years which downloaded from SCI and SSCI the visualization information retrieval research complete literature has made the detailed visualization analysis,described the visualization information retrieval research development path,has promulgated its research hot spot change situation,has analyzed this research country and the development facility distributed situation. 〔Keywords〕visualization information retrieval;Citespace Ⅱ;electrophoretograms cocitation network 可视化技术最早是针对科学计算提出的,目前的研究更多集中在信息可视化方面,可视化技术不仅在揭示信息资源的广度与深度上有很大的优势,而且它能够将隐藏在信息资源内部的、复杂的、抽象的语义以直观的图形方式呈现给用户。可视化信息检索是信息检索与信息可视化相结合产生的新的研究领域,既能够给用户带来直观的感受,也把检索过程变成一种探索性、趣味性的活动;它也展示了一种新的用户体验式发现信息的检索模式。这种文档之间按照逻辑关系形成的语义图对信息检索来说是非常重要的,它能够使用户对文档的内容进行整体的跟进,使用户能够真正确定查找的方向[1],这也正是可视化信息检索研究的重要性之所在。为了弄清可视化信息检索研究的演进轨迹,把握该领域研究热点的变化情况,笔者拟用信息计量学中最著名的软件Citespace Ⅱ对Web of Science中有关可视化信息检索研究的文献进行可视化实证分析,以期有益于我国信息检索研究工作的发展。 1 数据来源与分析工具 1.1 数据来源 本文以美国Thomson.ISI最著名的引文索引数据库SCI网络版——Web of Science中的科学引文索引扩展版(Science Citation Index Expanded)和SSCI(Social Science Citation Index)数据库为文献来源。检索方法选定为高级检索,检索式为:“TS=Information Visualization Retrieval OR ts=Visual information retrieval OR TS=Information retrieval visualization”。检索年限设定为1998-2010,其中文献类型设定为“Article”,共计1 619条记录符合条件。数据下载的方式设定为“作者、标题、来源出版物、摘要以及所引用的参考文献”,数据下载结束的时间为2010年6月23日。 1.2 可视化分析工具 本文使用的可视化分析工具是基于JAVA平台的CiteSpace Ⅱ,版本号为2.2.R8。该软件是由美国费城德雷克塞尔大学(Drexe1)信息科学与技术学院的陈超美博士开发。Citespace Ⅱ可用于探测和分析学科研究前沿的变化趋势以及研究前沿与其知识基础之间、不同研究前沿之间的相互关系。通过对文献信息的可视化,能够较为直观地识别学科前沿的演进路径及学科领域的经典基础文献。同时,选择机构共现分析,可以得到基于研究机构共现的机构合作网络图谱,实现对某技术研究领域中研究机构合作情况的可视化分析[2]。CiteSpace Ⅱ可以在陈超美博士的博客主页(http:∥cluster.cis.drexe1.edu/~cchen/citespaee/)上自由下载,免费使用。 2 可视化分析的研究结果 将下载的文献记录数据全部导入Citespace Ⅱ软件中,然后进行相关选项的设定。首先设置时间,本文检索年限为1998-2010共计12年,设定时间跨度为2年,这样就形成6个时间段。其次设定c,cc,ccv(其中c为文献被引频次;cc为两篇文献的共引频次;ccv为文献的共引系数)的阈值分别为(4,3,20)、(4,3,20)和(4,3,20),选定路径搜索(pathfinder)算法。最后依据分析研究的需要,选定相应的网络节点。 2.1 关键节点分析 将网络节点设定为参考文献(reference)和主题词(terms),将主题词来源设定为文献标题、文摘、描述符(descriptor)3种。由于Citespace Ⅱ软件中主题词又包括名词短语(noun phrase)与“涌现”词(burst terms)2种,我们先将主题词设定为“涌现”词,然后运行Citespace Ⅱ,不仅可以看到输出网络所涵盖的节点(Nodes=136)与连接线(Links=260数),同时也可得到可视化信息检索研究文献的共引网络图谱,见图1。图1 可视化信息检索研究文献的共引网络图谱 从图1中可以看出网络中有8个关键节点(关键节点是共引网络中连接2个以上聚类群组且具有较高中介作用的节点)。一般而言,关键节点的点度中心性比较高,在整个网络中所起的桥梁作用也很大。从知识理论的角度看,关键节点文献通常是在该领域中提出重大理论或是创新概念的文献,也是最容易引起新的研究前沿热点的关键文献[3]。可视化信息检索研究领域的关键节点见表1。 点文献的重要性,笔者利用Google Scholar对表1中按中心度的排序的文献做了进一步的检索。发现中心度最高的关键节点文献是Richard O.Duda等著的《Pattern Classificati》(纽约Wiley出版社)第二版,在谷歌学术中被引频度高达14 589次。Richard O.Duda是美国加州圣何塞州立大学(不仅是全加州历史最悠久的大学,而且是全美西地区最顶尖的公立大学之一)最著名的声音定位与模式识别专家,其代表作《Pattern Classificati》第一版《模式分类与场景分析》出版于1973年,是模式识别和场景分析领域奠基性的经典著作。在第二版中又新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等,该书已被卡内基-梅隆、哈佛、斯坦福、剑桥等120多所大学采用为教材;其次是Eleanor Rosch于1976年发表的论文“Basic Objects in Natural Categories”被引频度高达2 898次。Eleanor Rosch是美国加利福尼亚大学伯克利分校的著名认知心理学家,其主要成就是与其他学者一起提出了著名的“原型理论”,原型理论在认知科学中,是一种分级归类的模式,也是一种彻底扬弃传统亚里士多德逻辑中的必要和充分条件的理论。在许多认知科学与认知语义学的模型中,原型理论都是主要的核心概念;第三是Michael J.Swain于1991年发表在《International Journal of Computer Vision》上的文章“Color indexing”被引频度为3 734次。Michael J.Swain是美国芝加哥大学的著名计算机科学家,在信息可视化与人机交互访问方面卓有建树;第四是美国纽约大学著名认知心理学家Joan Gay Snodgrass于1980年发表的文章“A standardized set of 260 pictures:Norms for name agreement,image agreement,familiarity,and visual complexity”,被引频度为2 438次;第五是美国华盛顿大学教授Wheeler,Mark E.于2000年在《Proceedings of the National Academy of Sciences USA》上发表的文章“Memory餾 echo:Vivid remembering reactivates sensory-specific cortex.”,被引频度为283次;第六是美国脑与认知心理国家实验室著名学者Alex Martin于2001年发表的“Semantic memory and the brain:structure and processes”,被引频度457次;第七是Myron Flickner等编写由IEEE Computer Society Press出版的专著《Query by Image and Video Content:The QBIC System》,被引频度3 201次。Myron Flickner是美国IBM公司阿尔马登研究中心的高级工程师,长期从事图像检索和QBIC系统的研究;最后一个关键节点文献是加拿大著名认知心理学家Paivio,Allan撰写、由Oxford University Press.出版的《Mental Representations:A Dual Coding Approach》,被引频度高达2 520次。Paivio,Allan的主要贡献在于认知心理学方面。他在研究中想方设法促进人们对心理表象以及它在记忆、语言和思维方面的作用的理解。他的研究结果推动了双重编码理论的发展。正是这几个关键节点将认知心理学、计算机图形科学、信息科学等相关学科紧密地联系在一起,共同构成了可视化信息检索研究的学科基础,这些文献也因此成为信息可视化研究领域的经典文献。 2.2 研究热点的演进分析 随着时间的推移,科学文献的内容会逐渐变得陈旧过时。而研究内容的陈旧过时,具体体现在代表该研究内容的词汇或短语出现的次数的变化[4]。由于CiteSpace Ⅱ软件所调用的主题词(Terms)全部来源于SCI—E与SSCI数据记录中的题名(Titles)、摘要(Abstracts)、标识符(identifier)和描述符(descriptor),其完全可以用于表征该文献的内容。因此,笔者将网络节点设定为关键词(keyword),结合软件自带的涌现检测算法(burst detection algorithm),然后运行Citespace Ⅱ,绘制出1989-2010各年度的研究主题变化的时区可视图谱,见图2。 在此基础上,使用CiteSpaceⅡ自带的聚类软件对全部主题词进行Expectation Maximization简称(EM)聚类,最后得到了全部主题词的年度变化分布表,限于篇幅,这里只给出比较重要的部分,在表2中详细列出了1989-2010各年度重要主题词变化的详细信息,如主题词、词频与中心度等关键指标的数值。 由于导出的全部主题词变化分布表列出了1998-2010各年度主题词的中心度与词频及其详细的变化情况,因此这些主题词的变化也比较准确地反映了可视化信息检索研究领域中研究热点的演进情况。从表中可以看出1998-1999年的研究热点主题词主要是检索(词频343,中心度0.13)、识别(词频102,中心度0.18)、信息、情节记忆与可视化等;2000-2001年研究热点主题词是图像检索、基于内容的检索、数据库检索、对象识别、人脑成像机制的研究等;2002-2003年研究热点主题词则是多媒体、数据库、信息可视化以及形状、颜色、视觉皮层等;2004-2005年研究热点主题词是词汇检索、基于内容的图像检索、数据库以及视觉关注等;2006-2007年热点主题词是语义记忆、组织、工作记忆、脑活动以及分类等;2008-2009年的研究热点主题词是整合、认知模式、视觉记忆、信息过滤、视频检索、聚类分析、人机交互、知识管理、数据挖掘、视觉感知与心理意向等;2010年研究热点主题词则面部识别、降维分布等等。通过这种研究热点主题词的演进变化,可以看出可视化信息检索的研究热点始终紧紧围绕着信息检索与认知心理学、计算机图形学等基础学科的交叉点,学科基础交叉融合的结果,也代表了信息检索科学的发展方向。这种演进过程与张进等的研究结论[1]可以相互佐证。图2 可视化信息检索研究主题变化的时区分布图 2.3 各国研究实力与研究机构分析 在利用CiteSpace Ⅱ进行数据分析时,将网络节点分别设置成“Country”,然后加以运行即可得到有关国家研究实力分布图谱,见图4。 从图4中可以清晰地看出在可视化信息检索研究领域中,美国具有绝对的优势,居于世界首位,独占第一集团;英国虽然远逊于美国,但明显超出其它国家很多,独占第二集团;第三集团由德国与加拿大构成,略强与第四集团。第四集团相互之间差距不太大:它们是法国、日本、荷兰、意大利与中国。由此可见,我国在可视化信息检索研究领域起步较晚,还没有形成稳定而且具有一定规模的研究队伍,与国际先进水平相比还有一定的差距,见表3。 将网络节点分别设置成“Institution”,然后运行CiteSpace Ⅱ,得出从事信息可视化研究的机构分布图,由于分布图中的科研机构的分布情况没有任何规律可循,笔者将有关数据又转化成表格,可得到从事可视化信息检索研究的重要机构信息表,其前4名见表4。表4 可视化信息检索研究的重要机构 序号机构涌现值词频1Univ Illinois252Harvard Univ173Univ Oxford2.6134Univ Texas3.0510 从表4可以看出,第一位是美国的芝加哥伊利诺大学(University of Illinois at Chicago),该大学始建于1867年,共有芝加哥、厄巴那一香槟和春田3个校区,是全美国10所最大的州立大学之一。第二位是美国的哈佛大学(Harvard Univ),她也是美国最古老、最著名的大学。第三位是英国的牛津大学(Univ Oxford UK),它有历史、有世界声誉。尽管由于国家和资源的优势相对衰落,牛津和剑桥高居于世界大学之冠的日子早已不再。但它仍在英国社会和高等教育系统中具有极其重要的地位,也仍然有着世界性的影响。第四位是美国的德克萨斯大学(Univ Texas),创立于1890年,是德克萨斯州境内占地最大的公立学校,1992年该校又获选为美国国家大学联盟成员〈Full membership in the National Association of State Universities〉。《美国新闻与世界报道》将它评为学术声誉第193位,连续两年评为“America餾 Best College Buys”之一的学校。另外,从科研机构的性质来看,大学是可视化信息检索研究的重要力量,推动者可视化信息检索研究工作的向前发展。 3 讨 论 通过以上分析研究,我们可以得出如下结论: (1)由于可视化信息检索是将信息资源、用户提问、信息检索模型、检索过程以及检索结果中各种语义关系或关联数据转换成图形,显示在一个二维、三维或多维的可视化空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率与性能,因此可视化信息检索的诞生基础是信息检索、认知心理学和计算机图形学的交叉与融合。信息检索是可视化信息检索的学科基础;认知心理学揭示了人类感知和认识世界的方式,是可视化信息检索的理论指导;计算机图形学则是可视化信息检索得以实现的工具。可视化信息检索具有形象性、交互性、辅助认知、趣味性和探索体验等特点,它能够为用户提供一个可视化的信息空间和工作空间,帮助用户更方便地接受和理解信息,并支持充分高效的人机交互,因而为改进信息检索效果、提高信息检索效率提供了有效手段。面对日益严峻的信息爆炸与信息饥渴之间的对抗,可视化信息检索能够成为缓解这一矛盾的一种有效方法[5]。 (2)通过使用CiteSpace Ⅱ对Thomson.ISI公司SCI于SSCI中收录的可视化信息检索研究文献的可视化分析,可以看出,我国可视化信息检索研究工作起步较晚。虽然在国家的综合排名中处于中等位置,但从研究机构排名情况来看,还没有一个国内研究机构能够凭借自己研究团队的实力而进入世界前列。当然这与我国信息可视化研究总体水平相对落后有很大关系,虽然清华大学、大连理工大学、上海交通大学等一批国内重点大学都开展了相关研究工作,但绝大多数还属于个体随意的研究行为,既没有明确的长远研究目标,又缺乏横向的联合攻关与团体协作。因而总体上还没有形成一定的规模,与国外先进水平还有较大的差距。 (3)可视化搜索引擎Bing的推出[6], 既给互联网的搜索引擎界带来一种耳目一新的感觉,有给广大网民带来了一种全新的分类搜索体验。搜索引擎Bing通过Silverlight技术以图片的形式显示某一类别中的内容,供用户筛选以找到需要的信息。可见,可视化信息检索技术是一种跨学科的、面向用户的信息技术;它能够改善以往单一的检索模式,带给用户的不仅是找信息更是娱乐或体验,甚至能够帮助用户发现一些未知的相关信息,因而具有较好的发展前景,也为国内搜索引擎企业提供了一个良好的发展商机。 参考文献 [1]张进,袁泽林,陆伟.可视化信息检索的主流路径[J].图书情报知识,2008,(5):24-27. [2]C Chen.CiteSpace Ⅱ:Detecting and Visualizing Eme~ing Trends and TrarLsient Patterns in Scientific Literature[J].Journal of the American Society for Information Science and Technology,2005,57(3):359-377. [3]侯剑华,陈悦,王贤文.基于信息可视化的组织行为领域前沿演进分析[J].情报学报,2009,28(3):422-430. [4]高继平,丁.专利研究文献的可视化分析[J].情报杂志,2009,28(7):12-16. [5]黄丰.信息可视化检索模型及应用探析[J].情报探索,2007,(10):45-47. [6]搜狐.微软发Bing可视化搜索功能助用户处理信息[EB].http:∥tools.yesky.com/200/9171200.shtml,2009-09-15. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。