标题 | 基于多维排列图谱的国内个性化信息服务研究热点分析 |
范文 | 刘甲学 王佳琦 [摘要]以CNKI为数据源,借助SPSS 17.0,采用共词聚类分析法、因子分析法与多维排列分析法,对近十年图情领域的核心期刊中个性化信息服务文献进行文献计量学分析,并绘制多维排列图谱,进而探索出个性化信息服务两大维度,即应用维度和技术维度,并直观展现出个性化信息服务研究热点。 〔关键词〕个性化信息服务;SPSS;共词聚类分析;因子分析;多维排列分析 DOI:10.3969/j.issn.1008-0821.2011.03.007 〔中图分类号〕G203 〔文献标识码〕A 〔文章编号〕1008-0821(2011)03-0032-06 Research Hotspot Analysis of Demastic Personalized Information Service Based on Multi-dimensional Scaling MapLiu Jiaxue Wang Jiaqi (College of Information Management,Heilongjiang University,Haerbin 150080,China) 〔Abstract〕Using the CNKI database as the data source,drawing support from the SPSS software 17.0,and adopting the methods of co-word clustering analysis,factor analysis and multi-dimensional scaling analysis,the paper attempted to analyze,in the perspective of literature metrology,the papers on personalized information service in corn journals of library and information field in recent ten years.Furthermore,the paper drew the multi-dimensional scaling map,as a conclusion,it explored two-dimensions of personalized information service,such as application dimension and technology dimension,and intuitively reveals the hotspot about personalized information service. 〔Keywords〕personalized information service;SPSS;co-word clustering analysis;factor analysis;multi-dimensional scaling analysis 随着互联网的不断发展和普及,它已渗透到人们工作、生活的各个领域,通过网络人们能够不受时空、地域限制地得到快捷、便利、高效的信息服务[1]。然而,随着信息资源数量的“爆炸性”增长,信息超载、信息迷航等一系列问题接踵而至,这为人们得到快捷、便利、高效的信息服务提供了层层障碍。为了上述状况能够真正得到改善,需要引入一种满足用户个性化需求且能够自动调整和组织信息的服务模式,个性化信息服务正是在这种情况下应运而生。因此,个性化信息服务的研究和应用具有十分重要的意义。 笔者以CIKI为数据源,首先利用ROST CM内容分析与文本分析软件对个性化信息服务文献的词频进行统计,在此基础上,借助SPSS 17.0进行共词聚类分析、因子分析等多元统计分析,最终绘制出个性化信息服务可视化多维排列图谱,以求清晰直观展现个性化信息服务研究热点。 1 研究方法与数据来源 1.1 研究方法 本文采用定量分析与定性分析相结合的研究方法,尤其注重文献计量学分析以及多维排列图谱的绘制。多维排列图谱即多维排列分析图,它借助SPSS 17.0统计分析软件绘制而成,旨在以可视化的图像直接展示出某一领域的研究热点。本文采用的具体研究方法包括共词聚类分析、因子分析以及多维排列分析。 1.1.1 共词聚类分析法 共词分析方法最早在20世纪70年代中后期由法国文献计量学家提出的,利用文献集中词汇对或名词短语共同出现的情况,来确定该文献集所代表学科中各主题之间的关系[2]。共词聚类分析法作为共词分析法的一种,主要是借助数据挖掘中的聚类算法,将彼此联系相对紧密的主题聚集起来形成概念相对独立的团体[3]。在图情领域,共词聚类分析法中的“词”通常被理解为关键词,能够反映一篇文献的研究主题,如果两个关键词在同一篇文献中出现的次数越多,则说明这两个关键词所代表的研究主题间的关系越紧密。 1.1.2 因子分析法 因子分析法的概念源于Karl Pearson等人关于智力测验的统计分析,主要是从研究相关矩阵内部的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法[4]。因子分析法的优势在于降低统计量的同时再现变量之间的内在联系。 1.1.3 多维排列分析法 多维排列试图通过测定事物或观测量之间的距离来发现数据结构[3]。运用多维排列分析法,能够将原始数据结构转化为一个多维度的空间图,个体间的相对位置在空间图中清晰可见。 1.2 数据来源 本文以CNKI为基础数据源,由于核心期刊的文献质量比较高,基本上能够反映出该领域的研究热点,所以本文参照2008年北大版《中文核心期刊要目总览》图情领域(G25,G35)的核心期刊进行检索,检索日期界定在2000年6月30日-2010年6月30日,以主题词为“个性化信息服务”OR“信息个性化服务”进行精确检索,最终得到有效文献404篇。 1.2.1 关键词的处理 提取出每篇文献的关键词,在关键词的处理上,考虑到每位作者的语言和选词习惯不同,在选取关键词时具有一定的主观性。因此,在对每条记录关键词进行归类之前,首先排除没有独立检索意义且过于宽泛的词,如“反映”、“研究”、“研究综述”等,其次对论文的关键词进行归类处理,采用同级合并归类和上归类的策略,即合并同义词统计结果,将下位关键词的统计结果并入上位关键词,如将“检索”、“信息搜索”归为“信息检索”,最后,词频居于前列的关键词特殊对待,单独列出,如“图书馆”、“数字图书馆”。 1.2.2 词频的统计 把处理后的关键词导入文本文档中,利用ROST CM内容分析与文本分析软件自动统计各关键词的词频,按词频的降序排列,最后选择出现频次大于5次的关键词作为研究对象。结果如表1:表1 个性化信息服务文献中的高频关键词 序号关键词词频序号关键词词频A1图书馆165A15信息推送14A2个性化信息服务151A16个性化信息10A3个性化服务74A17智能代理10A4数字图书馆68A18个性化定制10A5网络环境43A19网络信息服务10A6个性化38A20搜索引擎8A7信息组织28A21资源整合8A8技术26A22个性化推荐7A9服务模式23A23隐私保护7A10数据挖掘22A24信息过滤7A11用户需求22A25协同过滤6A12数字参考咨询20A26电子商务6A13模型20A27关联规则5A14信息检索18总计—8262 数据分析 2.1 共词聚类分析 利用EXCEL的数据透视表统计出27个关键词的共现频次,即统计它们在同一篇文献中成对出现的次数,形成一个27*27共词矩阵(见图1),将共词矩阵导入SPSS 17.0中,为消除共词频次差异的影响,利用Pearson相关系数将其转化成相似矩阵,即泊松矩阵,进而对其进行聚类分析。聚类分析主要分为两类,均值聚类和系统聚类。分类数目已经明确的情况下采用均值聚类;在分类数目未知的情况下采用系统聚类。因此,本文对数据进行的是系统聚类分析。在聚类方法上采用Ward餾 method,此方法能够产生较好的聚类效果,通常作为关键词聚类的首选方法。根据得到的聚类图,可初步判断各关键词的关联程度,越早聚类表明关键词间的相关性越强(见图2)。 2.2 因子分析 为了便于进一步做多维排列分析,笔者将引入因子分析。通过因子分析,关键词能够根据其相关性的大小进行分组,使得同组内变量之间的相关性较高,而不同组间变量的相关性较低。最终分析结果得到的因子个数即关键词的分组数。 因子分析过程中,笔者采用主成分法(Principal components)和方差最大的正交旋转法个特征值,主成分通过自身所解释的原始变量方差的大小进行重要性排序,在最初的分析结果中,包含了与原始因子数一样多的成分,即在本文中27个成分对应27个特征值。为了判断变量与哪个成分(因子)最为相关,使对主成分的解释变得简单明了,笔者对代表相关性大小的因子载荷系数矩阵进行正交变换,使系数向0或1的方向极化,这一步骤称为因子旋转。因子旋转方法有很多,这里选择最常用的方差最大旋转(Varimax),该方法是一种正交旋转法,它使每个因子上的具有最高载荷的变量数最小,以此简化对因子的解释[6]。在此基础上,使用碎石检验准则确定提取因子数。碎石检验准则(SCREE TEST CRITERION)是根据碎石图的形状来判断因子的个数。该图的形状像一个山峰,从第1个因子开始曲线迅速下降,然后下降变得平缓,最后变成近似一条直线。由于后面的散点就像山脚下的碎石,舍弃这些“碎石”,不会丢失太多信息,该准则因此而得名[7]。通常情况下,曲线开始变平的前一个点所对应的数值被认为是最后确定的因子数,从图3中我们可以看出,当累积到第9个因子时,曲线开始接近平滑,那么,它的前一点数值为8,由此可知,提取8个因子最为合理,即将关键词划分为8组,最为合理。 2.3 多维排列分析 基于上文已经得出的将关键词分为八组的结论,将导入SPSS 17.0的相似矩阵,通过“Analyze→Scale→Multidimensional Scaling”做进一步的多维排列分析,可绘制出如图4所示的多维排列图谱。 2.4 结果分析 通过上述关键词在多维排列图谱中的分布,笔者根据关键词的属性,探索出个性化信息服务研究的两大维度,横轴表示个性化信息服务研究的应用维度,纵轴代表个性化信息服务研究的技术维度。应用维度以最左侧表征个性化信息服务技术的关键词“个性化定制”为起点,由技术类关键词向表征应用类的关键词过渡,自左向右,不断深化。技术维度以关键词“信息组织”为出发点,自底向上,由应用过渡到技术,并向深层次的表征技术的关键词细化,如协同过滤、关联规则等。笔者结合多维排列图谱,及上文因子分析得出的结论,在两大维度框架下,对个性化信 A1图书馆 A2个性化信息服务 A3个性化服务 A4数字图书馆 A5网络环境 A6个性化 A7信息组织 A8技术 A9服务模式 A10数据挖掘 A11用户需求 A12数字参考咨询 A13模型 A14信息检索 A15信息推送 A16个性化信息 A17智能代理 A18个性化定制 A19网络信息服务 A20搜索引擎 A21资源整合 A22个性化推荐 A23隐私保护 A24信息过滤 A25协同过滤 A26电子商务 A27关联规则 图2 个性化信息服务文献关键词聚类分析图图3 个性化信息服务文献关键词因子分析碎石图 息服务的研究热点及趋势进行如下具体分析: (1)第一类是对图书馆的个性化信息服务的研究,由A3个性化服务、A1图书馆、A12数字参考咨询、A9服务模式、A16个性化信息5个关键词组成。此类关键词分布在多维排列图谱中第四象限,属应用维度研究范畴,而关键词图书馆离原点距离最近,说明它是该类研究的核心关键词。近年来,图书馆把实现个性化信息服务作为自身发展的重要方向之一,图情领域普遍认为提供专门而深入的图4 个性化信息服务文献关键词多维排列图谱 个性化信息服务是图书馆纵向发展的一个契机,传统的图书馆从开、闭架的阅览到数字参考咨询都与个性化的知识交流和信息服务息息相关,进入数字化时代后,全新的信息服务环境为个性化信息服务模式提出了新的挑战,基于此,图书馆开始思考并拓展信息服务模式以提高自身的竞争力。因而,个性化的服务模式成为图书馆及其数字参考咨询研究的重要内容。 (2)第二类是对信息组织和资源整合的研究,由A6个性化、A7信息组织、A21资源整合3个关键词组成。此类关键词位于多维排列图谱的下方,关键词信息组织、资源整合分布在第四象限,从属性上看是表征个性化信息服务应用的,所以此类关键词是个性化信息服务应用维度的又一研究。随着信息量的爆炸性的增长,个性化信息服务中的资源整合、信息组织研究已成为焦点,如何进行组织与整合,将有效的信息及时准确地推送到最有需求的用户面前,成为个性化信息服务进程中一个至关重要的问题。面向个性化服务的信息组织是指在对用户进行兴趣、需求分析的基础上,为用户创建主动的、个性化的信息资源与服务的集合[8]。它与传统的信息组织相比具有更强的实用性,而资源整合同时也是信息组织个性化服务所面临的基本问题之一,因此,信息组织与资源整合成为个性化信息服务的研究热点。 (3)第三类是基于用户需求的建模技术的研究。由A11用户需求和A13模型两个关键词构成。从图4中,我们可以看出,A11和A13两个关键词分布在第三象限,且位置重合,说明二者属于技术维度研究范畴且关联度较高。“以用户为中心”是个性化信息服务开展过程中的一个重要的理念。既然个性化服务的目标是用户,对用户需求的分析、获取和管理成为个性化信息服务运行的关键因素。随着网络资源爆炸式的增长,用户的需求日益复杂多样化,传统的服务模式难以适应并满足用户日益增长的信息需求。在进行个性化信息服务的探讨过程中,越来越多的学者将研究对象聚焦于用户需求模型。学者们通过“把握用户的需求信息和兴趣偏好,建立用户需求模型,在整合内外部信息资源的基础上,进行个性化信息资源的识别与匹配。[9]”用户需求模型细致地展示了用户的各种需求特征,为更好的进行个性化信息服务打下了夯实的基础。因此,基于用户需求的建模技术成为个性化信息服务的研究热点。 (4)第四类是网络信息检索的个性化信息服务,由关键词A14信息检索、A20搜索引擎、A19网络信息服务组成。信息检索、搜索引擎是表征个性化信息服务技术类的关键词,且此类关键词位于第三象限,说明它们是个性化信息服务技术维度的研究热点。信息检索作为个性化信息服务早期的研究方向,其研究热度并没有下降。搜索引擎作为网络信息检索工具而被人们广泛使用,由于海量信息的出现,使得传统的搜索引擎在功能上的表现略显不足,为了实现满足用户个性化需求的目标,网络信息检索的个性化信息服务得到关注,而且文献量逐年上升,成为研究热点。 (5)第五类是个性化推荐服务研究,由关键词A15信息推送、A18个性化定制、A22个性化推荐、A25协同过滤、A24信息过滤、A17智能代理、A10数据挖掘、A27关联规则组成。从图4中,我们可以看出,此类关键词位于第一、二象限,分布范围较为广泛。个性化推荐是目前个性化信息服务的重要研究方向,它所涉及的关键技术有协同过滤、信息过滤、信息推送、数据挖掘、关联规则、智能代理等。在对个性化信息服务技术的探讨过程中,这些关键词一直是近年来个性化信息服务研究的热点,因此,就其发展趋势而言,个性化推荐服务仍然会是个性化信息服务的热点研究方向。 (6)第六类是数字图书馆的个性化信息服务,由A4数字图书馆、A2个性化信息服务两个关键词组成。从图4中的关键词分布,我们可以看出,数字图书馆虽然从属性上看是表征个性化信息服务应用的关键词,但与表征个性化信息服务技术的关键词空间距离较小,说明它与代表个性化信息服务技术的关键词关系紧密。数字图书馆是在网络这个大背景环境下应运而生的,其发展自然离不开网络技术力量的支持。在我国,数字图书馆的研究起步较晚,但其在图书馆学、情报学领域近年来的研究热度却不可小视。数字图书馆的根本目标是通过一定模式的系列服务有效支持用户利用信息解决现实问题和创造知识[10],即通过一系列的服务模式满足用户的信息需求,可见,个性化信息服务的出现为数字图书馆实现其根本目标提供了契机,同时,个性化信息服务作为数字图书馆的最佳服务方式之一,日益成为学者的关注焦点及发展趋势。 (7)第七类是个性化信息服务的隐私保护问题。由关键词A5网络环境和A23隐私保护构成,分布在第一象限,在两大维度共同作用的产物,隐私保护得以实现既涉及安全技术力量的支持,又包括相关法律条文及政策的颁布与实施。网络环境为个性化信息服务提供了更为广阔的发展空间,同时,也带来了一些弊端及隐患,如网络安全、隐私保护等问题的出现。进行个性化信息服务的前提必须了解用户的个性化需求,这就难免要对用户行为日志及注册的个人信息等进行调查和收集。由此,隐私问题就会有所涉及,因而很可能导致用户对个性化信息服务过程存在不信任感,这将阻碍个性化服务的进一步发展。所以,隐私保护问题一直以来都是个性化信息服务面临困境的重中之重,关乎用户隐私的安全技术及政策法规,成为个性化信息服务的研究热点之一。 (8)第八类是电子商务的个性化信息服务。由关键词A26电子商务、A8技术组成,分布在第一象限。随着web2.0的出现,电子商务开始进入了人们的视线,其依托网络环境产生的自身特质,及以用户为中心的服务理念,预示着它与个性化信息服务技术关系紧密。个性化电子商务平台的建设、购物搜索引擎的个性化服务研究、电子商务中个性化推荐服务等研究充分体现了电子商务与个性化信息服务技术的融合。但由于电子商务关键词的频次较低,说明其研究热度不是很高,但在强大的市场需求的推动下,它必将成为个性化信息服务的未来发展趋势之一。 3 结 论 本文借助SPSS 17.0统计分析软件,首先采用共词聚类分析法初步判断各关键词的关联程度、其次运用因子分析法对关键词进行因子分析,通过碎石检验准则确定其合理分组数,最后,借助多维排列图谱,探索出个性化信息服务的两大维度,即应用维度与技术维度,在这两大维度框架下,对近十年来个性化信息服务领域研究热点及趋势进行了详细的分析和探讨:(1)个性化信息服务的应用维度以网络环境为依托,与图书馆、数字图书馆、数字参考咨询及信息资源组织与整合结合较为紧密。(2)个性化信息服务探讨的技术维度的热点问题主要包括个性化推荐技术、信息检索技术、搜索引擎技术以及基于用户需求的建模技术。(3)信息推送、智能代理、数据挖掘、信息过滤、协同过滤作为表征个性化信息服务技术的关键词,虽然在本文中,笔者没有详细论述,但从词频的优势上,我们能够看出,它们仍然是个性化信息服务研究的热点。(4)为用户提供更高质量的个性化信息服务与对用户的隐私进行保护,从始至终学者们在这两点上进行着博弈,期待找到一个平衡点。所以关乎用户隐私的安全技术及政策法规研究,成为个性化信息服务的研究热点之一。(5)关于以电子商务为主题的个性化信息服务研究,并没有成为研究热点,但在强大的市场需求的推动下,它必将成为个性化信息服务的未来发展趋势之一。 参考文献 [1]颜端武,王曰芬.信息获取与用户服务[M].北京:科学出版社,2010:214-216. [2]钟伟金,李佳.共词分析法研究(一)——共词分析的过程与方式[J].情报杂志,2008,(5):70-72. [3]钟伟金.共词聚类分析法的类团实例研究——对肿瘤治疗热点主题的分析[J].中华医学图书情报杂志,2008,18(2):48-53. [4]王苏斌,郑海涛,邵谦谦.SPSS统计分析[M].北京:机械工业出版社,2003:400-412. [5]韩璐,谢俊奇.基于多维尺度分析的土地科学决策支持系统研究现状分析[J].中国土地科学,2009,(7):37-42. [6]李婷.虚拟人体的多尺度建模方法研究[D].北京:清华大学,2008:17-24. [7]郭志刚.社会统计分析方法[M].北京:中国人民大学出版社,1999:87-115. [8]司徒俊峰,曹树金.面向个性化服务的信息组织本体模式[J].情报理论与实践,2009,(11):93-97. [9]俞晓霞.论数字图书馆个性化信息服务的实现[J].图书情报工作,2005,(5):30-32,71. [10]张晓林.数字图书馆机制的范式演变及其挑战[J].中国图书馆学报,2001,(6):3-8,17. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。