网站首页  词典首页

请输入您要查询的论文:

 

标题 基于链路分析的作者合著关系预测研究
范文 王卫 李晓娜 闫帅
〔摘要〕作者合著关系的预测对于提高科研合作效率和有效的科研管理具有重要的意义。本文以中国知网中图书情报领域核心期刊作为信息来源,获取15年(2001-2015)的文献信息。通过计算指标方差和指标性质确定对合著关系预测的指标体系,同时对比基于单指标的无监督方法和基于分类算法的监督式机器学习方法(逻辑回归、支持向量机和随机森林)的预测效果,本文最终确定基于随机森林和指标体系所构造的合著关系预测模型。通过实例应用证明该模型具有较好的准确性和稳定性。
〔关键词〕合著关系;链路分析;随机森林
DOI:10.3969/j.issn.1008-0821.2018.11.019
〔中图分类号〕G250252〔文献标识码〕A〔文章编号〕1008-0821(2018)11-0109-07
Study on Co-authorship Prediction Based on Link Analysis
——Taking LIS Field as ExampleWang Wei1Li Xiaona1Yan Shuai2
(1.School of Government,Beijing Normal University,Beijing 100875,China;
2.Department of Public Security of Henan Province,Zhengzhou 450003,China)
〔Abstract〕The prediction of co-authorship is of great significance to improve scientific research cooperation efficiency and manage scientific research more effectively. Using CNKI as the data resource,this paper selected co-authorship in the core journals between 2001 and 2015.The co-authorship prediction index system was determined by index properties and index variance.By comparing the prediction effect of the unsupervised method based on single index and supervised machine learning method based on classification algorithm which contained logistic regression,support vector machines and random forests,this paper finally confirmed the prediction model of the relationship based on the index system and random forests.
〔Key words〕co-authorship;link analysis;random forests
隨着科学技术的发展和科学研究的深入,科研活动中的知识交流与共享行为日趋频繁,作者合著行为呈明显上升趋势,合作机制也愈发有律可循。通过对作者合著关系产生和发展机理进行研究,理解科研合著网络的关系行为模式,发现并模拟科研合著网络的动态演化过程,对于提高合作效率和有效的科研管理具有重要的意义。已有研究发现影响作者合著行为的因素主要有:自身的合作倾向、合作能力、研究兴趣等个体因素,地理位置等情境因素以及学科性质。但前人研究缺乏对作者合著行为模式系统化、定量化的描述与揭示。本文假设合著行为的产生与所在合著网络中网络结构特征以及作者个体属性特征有关,从合著网络的适用性和预测方法的可解释性等角度出发,选取了基于分类模型的机器学习方法,通过构建指标体系,对多种预测方法进行对比,分析合著网络的形成机制,并进一步预测合著网络。
1相关理论基础
链路预测是通过已知的网络节点以及一些网络结构信息,预测网络中尚未产生连边的两个节点之间产生连接的可能性。它是网络研究的重要方法之一,尤其对链接关系预测与推荐等方面具有较高的应用价值[1-2]。
目前链路预测主要采用基于相似性的方法和基于学习的方法,其中基于相似性的方法是通过基于邻居信息、路径或随机游走的相似性指标等,根据已知网络中的节点结构和节点属性,通过某项指标计算每一对未连接节点的相似程度,相似程度越高,其存在链接的概率越大[3];而基于学习的方法是将链路问题看作一分为二的问题,即两个节点存在连接或不存在连接,该方法也是根据已知网络中的节点结构和节点属性,通过无监督或有监督的机器学习算法或概率模型等来预测未知节点对的连接属于正类或负类的概率[4]。
在机器学习算法上,根据不同的链路预测问题,可分为非监督式方法和监督式方法。基于非监督方法,可通过K近邻算法判断节点对连接与否。K近邻算法[5]是通过给定的训练数据集,判断新入样本在该训练数据集中最临近的K个实例,并将该样本归入K个实例中多数实例所属的类中。基于监督式方法,主要是选择合适的分类算法。目前该领域有较多的分类算法[5],如逻辑回归利用逻辑函数计算节点对之间产生连接的概率值;支持向量机是寻找特征空间上最大间隔面的线性分类器,通过间隔最大化,最终转化为一个凸二次规划问题的求解;随机森林算法通过反复二分数据进行分类或回归,随机使用变量和数据,按照纯度最小原则分裂,对生成的多棵独立决策树选择出最优的分类结果,每一棵决策树最大限度地生长,不做任何修剪,将生成的多棵决策树组成随机森林,用分类器对决策树的分类结果投票,以票数多少确定分类结果。
针对链路预测效果进行评价,可对应预测方法选择不同的评价方法。基于相似性方法的链路预测问题,可以选择Accuracy的评价方法,它指相似度排序靠前的k个预测边的预测准确率,预测正确的边的数量越多,准确率越高;基于学习方法的链路预测问题,可以使用经典分类算法的评价标准,即Precision、Recall、F1、AUC值。其中Precision度量其精确性,表示被划分为正类样本的数量中实际为正类样本数量的比例。Recall度量其覆盖面,表示被划分为正类样本的数量在所有正类样本集合中的比例。F1是正确率与召回率的调和平均值,数值越大,效果越好,其计算公式为F1=Precision*Recall*2Precision+Recall;如果采用AUC值进行链路预测评价,需要建立一个纵坐标为召回率横坐标为伪正率的二维坐标系,即实际为负类集合中被划分为正类的样本数比例,形成一条ROC曲线,AUC则为曲线下的面积,AUC值越大,预测效果越好,如果值大于05说明模型的分类效果好于随机预测效果。
2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期基于链路分析的作者合著关系预测研究Nov.,2018Vol38No112合著关系预测指标体系
21研究假设
本文指标构建的相关研究假设如下:
1)合著网络中网络结构相似的节点(作者)对更易产生合著;
2)合著网络中介中心度差异大的节点(作者)对更易产生合著;
3)合著网络中聚类系数差异大的节点(作者)对更易产生合著;
4)合著网络中节点(作者)倾向于和合作度大的节点(作者)合著;
5)合著网络中合作率差异大的节点(作者)对更易产生合著;
6)合著网络中节点(作者)倾向于和论文数多的节点(作者)合著;
7)同一机构的作者更易产生合著;
8)研究兴趣点相似或相近的作者更易产生合著;
9)两个有较多共同合作过机构的作者更易产生合著。
22网络结构特征指标
在作者合著网络中,既往研究使用的指标如表1所示。表1既往研究作者合著网络使用指标
既往研究使用的指标Yan E等[6]CN、Jaccard、AA、PA、SimRank、PageRank等AI Hasan M等[7]CN、Shortest Path、Sum of Neighbors、
Sum of keyword Count等Guns R等[8]CN、Jaccard、AA、weighted Katz等Pavlov M等[9]Shortest Path、CN、Jaccard、AA、PA、
Weighted Katz、Link Value等Zhang J等[10]CN、Common Keyword、Common Journal等
在作者合著關系的网络结构特征指标中,本文主要用到了CN(Common Neighbors)指标、Jaccard指标、AA(Adamic Adar)指标、PA(Preferential Attachment)指标、中介中心度之差、聚类系数之差。以下分别对其进行说明:
CN指标是指节点对的共同合作作者数,认为共同作者数越多,这两个节点产生链接的概率越大。
Jaccard指标是在节点对中,两者的共同合作者数量占两者合作者总数量的比重。
AA指标[3]是根据节点对共同邻居的度信息,度小的共同邻居节点的贡献大于度大的共同邻居节点,因此根据共同邻居节点的度,为每一个节点赋予该节点的度的对数分之一的权重值,即1/lg k。
PA指标[11]针对无标度的网络结构特性,认为网络中节点中心度数小的节点更倾向于与网络中度数大的节点产生连接,因此在合作网络中该值等于节点对度数的乘积。
中介中心度在作者合作网络中表示网络中某位作者出现在其他作者对最短路径上的程度,中介中心度越大,表明该作者促进其他作者对形成合作关系的能力越强。中介中心度之差,则是指两个作者的中介中心度的差异程度。
聚类系数之差是考察节点之间存在的密集连接程度的差异,即作者对之间聚类系数的差异程度。
23个体属性指标
本文多考虑了个体属性指标和作者的合作计量指标,其中个体属性指标包括论文数之积、是否同一机构、研究兴趣匹配度和合作机构相似度。以下分别对其进行说明:
论文数之积,由于论文数量在一定程度上可反映作者的科研水平,在基于网络结构的指标中我们考虑了作者合作者数量的优先连接,这里通过计算合著网络中任意作者对历史发文数量的乘积,来考察该值是否会影响作者合著关系的形成。此处统计的作者发文数是指每位作者在5年内的全部发文数量,包含独立发文数与合作发文数,使用Nx表示作者x5年内的发文篇数,该值计算如下式所示:
Preferpaper=N(x)×N(y)
是否同一机构,从学术交流的便捷性和工作情感角度,同一机构的科研工作者更容易形成合作关系。
研究兴趣匹配度,研究兴趣相似是促成合作关系的常见原因,我们提取每位作者历史发文中的关键词信息,用于表示每位作者的研究兴趣,随机组配作者对,以作者对历史发文的关键词集合的交集的数量作为匹配度。
合作机构相似度,我们通过考察每位作者既往合作过的机构作为合作机构集合,通过计算作者对之间合作机构集合的交集的数量,作为作者对合作机构相似度。
24合作计量指标
合作计量指标是对作者历史合作行为的刻画,融入该指标有助于更好地理解合著行为。它是由合作率之差和合作度之积构成,以下分别对其进行说明:
合作度之积,其中合作度是指作者所发表论文的篇均作者数,合作度越高论文篇均合作者越多,没有合作行为的独立研究人员的合作度最小,取值为1,我们通过计算两个作者的合作度的乘积,进而判断作者对是否存在合作度的优先连接。这里用Nx表示作者x的发文总数,fxj表示作者x的所有论文中作者数为j的论文数量,q表示单篇文献的最大作者数量。具体公式如下:
PreferDC=∑qj=1jfxjNx*∑qj=1jfyjNy
合作率之差,其中合作率反映作者科研合作的深度,指作者合作论文数占全部产出论文的比率,通过考察两个作者在合作率上的差异是否会对作者之间的合著产生影响。这里用Nx表示作者x的发文总数,fx表示作者x的合作发文数,并提出了合作率差异指标如下式所示:
difCI=fxNx-fyNy
25指标体系
通过上述研究可发现,指标体系中主要以网络结构特征为主,因此在初步形成的链路预测指标集合的基础上,我们对各指标做二次筛选,一方面通过指标的方差大小进行筛选,因为方差较小的指标所具有的区分度较小,所以去除方差较小的指标;另一方面通过指标性质,去除一些不适用于合著网络的指标以及已经被相关研究证明效果较差的指标。
在综合考虑作者合著网络结构特征和主流的链路预测指标基础上,最终确定如下的指标体系,见图1。
3预测模型分析
31数据获取与处理
本文以2014-2015年中文核心期刊目录(CSSCI)图情领域17种刊物作为文献信息来源,并选择CNKI作为研究数据采集平台,从该平台获取上述期刊15年(2001-2015)的文献信息,共79 715条记录,通过Python编程对数据预处理,去除期刊简讯、会议信息、通告、活动报道等无关记录4 813条,保留有效记录74 902条。
以5年为一个阶段,将上述15年的数据分为2001-2005年、2006-2010年、2011-2015年3个阶段。
32预测实验设计
作者合著关系预测,即未来连边预测,是指在合著网络的演化过程中,判断在前一阶段合著网络中不存在合著关系的作者在后一阶段是产生合著关系还是仍然不存在合著关系。
为了便于分析,本文引入一些记号和概念。用Eold表示前一阶段(old)合著网络中边(合著关系)的集合;用Enew表示后一阶段(new)合著网絡中边(合著关系)的集合。在前一阶段如果作者对(u,v)不存在合著关系,即(u,v)Eold,则称(u,v)是潜在连边。合著关系预测是针对潜在连边(u,v)预测其未来连边情况,实际上只有两种情况:(u,v)∈Enew(产生合著关系)和(u,v)Enew(仍不存在合著关系),分别称之为新连边和缺失连边。这样,合著关系预测就转化为一个二分类问题:负类类标为0(缺失连边)或正类类标为1(新连边)。
本文将2001-2005年作为前一阶段,2006-2010年作为后一阶段。由于在潜在连边中缺失连边的数量远大于新连边的数量,导致分类中正负样本比例严重失调,其中在2006-2010年合著网络中存在合著关系的新连边数量为731,缺失连边数量为5 364 112,所以我们对缺失连边进行随机抽样,与新连边形成1∶1的正负样本比例,构成实验数据集。通过统计2001-2005年合著网络上各个指标值,预测在2006-2010年合著网络中的未来连边。
33预测方法选择
根据相关研究[4,12],在链路预测的预测方法上,本文可选择基于单指标的无监督方法和基于分类算法的监督式机器学习方法进行实验。
根据上述实验设计内容,将2001-2005年合著网络和2006-2010年合著网络作为数据集1,通过2006-2010年的合著网络来判断各方法对2001-2005年合著网络的潜在连边的预测效果;同样,将2006-2010年合著网络和2011-2015年合著网络作为数据集2,通过2011-2015年的合著网络判断各方法对2006-2010年合著网络的潜在连边的预测效果。同时在一定程度上了解预测方法的稳定性。
331基于单指标的预测
通过计算指标体系中每一个指标在数据集中的得分,采用Accuracy评价方法,获得指标预测正确率。需要说明的是,由于同一机构指标为类别变量,所以未参与预测。预测结果如图2所示:
由图2可知,多数指标在数据集1和数据集2上的准确率都较为接近,表明所选指标具有较好的稳定性和可靠性。从各指标在指标体系中所属的3个大类来看,整体预测效果最好的是基于作者个体属性指标,其次为合作计量指标,最差的为基于网络结构特征的指标。单个指标预测准确率最高的指标是合作机构的相似度,其次为网络结构特征的PA指标、中介中心之差、研究兴趣匹配度和论文数之积以及聚类系数之差。由于多数作者对的共同邻居作者较少且Jaccard、AA两个指标都是基于CN所构造,使得CN、Jaccard、AA指标的预测准确率均较低且比较接近。
332基于分类算法的预测
结合各种分类算法自身的优缺点及适用条件,同时根据分类算法对比的相关研究[13],支持向量机和随机森林在多数分类实验中均能取得较好的预测效果,在预测性能的稳定性方面优于多数算法;而逻辑回归算法因模型简单易理解、运算速度快、预测效果相对较好而被广泛使用。本文选择这3种分类算法构建合著关系预测模型。
对数据集1和数据集2分别采用十阶交叉验证,使用3种分类算法在训练集上进行预测,在测试集上验证,通过选用准确率、精度、召回率、F1值和AUC面积评价3类分类算法的预测效果。3种分类算法均通过Python中的机器学习包Sklearn实现。算法参数设置上,逻辑回归采用L2型正则化(解决指标多重共线性问题);支持向量机采用线性核函数,惩罚系数10;随机森林种树50棵,其他参数值为默认值。具体预测效果见表2所示。
从纵向来看,数据集1三个指标的预测效果普遍要略好于数据集2,由于数据集1演化时期要早于数据集2,因此我们认为早期的合著关系的形成更有规律性,使得其预测性也更好。
34预测模型中指标体系的选择
通过上述分析,本文使用随机森林分类算法分别得到了指标体系中3种类型指标集的预测效果,同时我们还实验了Mohammad[7]、Raf Guns[8]的合著关系预测模型,用于和本文所构建的预测模型进行比较,如表3所示。
从表3可以看出,3种类型的指标集合在合著关系预测上的准确率几乎都好于单个指标。另外,在3种类型指标集之间,预测效果最好的是个体属性指标(与单个指标预测的结论相同),其次是网络结构指标,最差的为合作计量指标。而融合3种指标集的指标体系的预测效果则明显好于任意一种指标集,表明考虑多种情况的指标体系更适用合著关系预测。同时,通过比较发现,基于本文构建的指标体系以及随机森林算法所形成的合著关系预测模型要好于Mohammad、Raf Guns的合著关系预测模型,进一步验证了本文指标体系的可靠性和合著模型的有效性。
通过上述比较本文认为基于随机森林和指标体系所构造的合著关系预测模型能有效地预测合著网络中合著关系的未来连边情况。因此利用该预测模型与数据集1形成合著关系预测模型M1,与数据集2形成合著关系预测模型M2,分别通过上一阶段合著网络预测下一阶段合著情况。以下分别对两个预测模型的預测效果进行分析。
图3为M1模型对2001-2005年和2006-2010年两个阶段潜在连边的预测效果,从图中可知,在各项评价指标上M1模型对2001-2005年潜在连边的预测均好于对2006-2010年潜在连边的预测。引起上述结果的主要原因为,该模型是基于第一阶段的合著关系数据预测其潜在连边哪些会在第二阶段的合著网络中产生合著,因而该模型对2001-2005年合著网络的数据拟合效果自然要好于对新的、未拟合过的2006-2010年的合著关系数据,而且在合著网络的演化过程中难免会新增或丢失一些信息或特征,进而影响预测效果。但从图中可以看到M1模型对2006-2010年合著关系的预测效果好于很多331节提到的指标。究其原因,我们认为是模型所使用的指标体系中的指标确实在一定程度上刻画了合著关系形成的机理,从而能在下一时期的合著关系数据集提供关于合著关系存在有否的信息。
随机森林算法能确定每个指标的gini系数分布,gini系数表示节点的纯度,gini系数越大纯度越低,因此gini系数可度量变量的重要程度。我们基于预测模型中的随机森林算法,得到了模型中各指标重要性的大小及排序,如图4所示。
另外对M1模型中2006-2010年合著网络关系预测结果进行探讨。按模型预测概率值的大小降序排序,并选取了排在前10位的作者对,如表4所示。表中第2列类标表示作者对在2011-2015年实际合著网络中是否合著,1代表合著,0代表没合著;而第3列预测概率表示M1模型预测作者对是否合著的概率值,该值大于05代表合著,小于05表示没合著。从表4可见前10位的作者对预测均准确。而概率值排名前50的作者对中,模型预测准确率仍为100%,在概率值前100的作者对中,模型预测的准确率为94%。上述结果表明M1模型具备较强的可靠性,当模型预测作者对产生合著的预测概率值高时,意味着作者对实际存在的合著关系的可能性越大。表4按模型预测概率排序的前10位预测结果
作者对类标预测概率(王英,王政)11(吴钢,彭敏惠)11(王菲菲,赵蓉英)11(刘佳,王馨)11(赵杨,张李义)11(余以胜,赵蓉英)11(易明,毛进)11(王静,郭太敏)11(李春明,萨蕾)11(张志强,张智雄)11
综上分析,我们认为基于前一阶段合著网络和当前网络产生的合著关系预测模型,可用于预测当前合著网络中潜在连边在下一阶段的连边情况,如果模型给出的预测概率值越高,其预测正确的可能性也越大。我们根据数据集2得到合著关系预测模型M2,用于预测2011-2015年的潜在连边中有哪些将在未来产生合著关系。通过对M2预测概率值进行排序,类标为1、预测概率为1的作者对数量共1 149对,以下列出部分可靠性较高的预测结果,如表5所示。
图5是M2模型中各指标重要性大小及其排序。对比图4可知,模型M1和M2在指标重要性方面既有相同之处,又有不同。首先,两个模型中最显著的指标都是合作度之积,说明该指标具有较强的重要性,由于合作度表示作者篇均合著者数,意味着合著网络中的作者倾向于和合作度高的作者合著。而合作机构的相似性、中介中心性之差两个指标分别是对作者合著对象来源范围和合著网络中心结构的刻画,也分别是模型前后两组预测的第二重要指标,从整体上来看它们在合著关系预测模型中的重要性高于大多数指标,意味着合著网络中的作者倾向于与自己有相似合作单位的作者或资源占据多的作者合作。另外,论文数之积和合作率之差在合著关系预测模型中的重要性非常稳定,表示这两种指标能预测合著关系的可靠性强。在模型前后两组预测中,研究兴趣匹配度的重要性都很低,表明作者并不把研究兴趣的相似度看作选择合著者的重要的优先条件。合著网络中的作者更多是与网络中心度高或合作度高的作者合著,这一方面能提高作者的科研合著产出或降低时间等成本;另一方面通过与他们的合著能借助他们的人脉等资源更好地拓展自身学术圈。其他指标在重要程度上也存在一定的变化,但它们整体重要性并不高,对合著关系预测整体的影响力也一般。
5问题与讨论
前面我们从合著关系预测实验、预测效果分析等角度探讨了基于链路预测方法的合著关系预测的主要问题。但是除上述问题外,我们对模型的改进需进一步探讨,以及在合著关系预测上还需要注意实验数据集的选择、网络新增节点等问题。
51基于时间序列的预测
在上述讨论中,我们构建的预测模型是利用前一阶段
合著网络中合著关系的数据来预测下一阶段的合著关系的未来连边情况。但是合著网络是一个动态变化的过程,缺乏稳定性,应该对模型不断地改进。通过对模型进行修正可以让预测模型最大程度捕捉到合著关系形成的一般规律,使模型具有更好的泛化能力。因此我们借鉴时间序列预测的思想对上述预测模型进行扩展。
如图6所示,假设已知过去5个阶段合著网络中合著关系的连接情况,预测第6个阶段合著网络中的合著关系。首先,在相邻的两个阶段上,从前一阶段数据集上得到合著关系数据,通过后一阶段的数据集获取合著关系连接与否的类标,并生成一个预测模型,基于前4个已知阶段产生3个预测模型。其次,我们可以对相邻模型(如模型1和模型2)的预测效果和各指标的GINI系数等进行比较,通过调整指标权重或新增修正因子指标等方式得到修正模图6基于时间序列的预测模型
型(如修正模型2),而对修正模型可行性或效果的验证则需根据更后两阶段的数据集(如数据集3和数据集4,这里我们是使用修正模型2预测数据集3上的潜在连边,并通过数据集4的合著关系连接情况进行效果验证,以考察修正模型对新数据预测的有效性和可行性)。依次类推,直到得到最终的修正模型,并基于该修正模型对未来的合著关系情况进行预测。
52数据集的选择
在32节合著关系预测实验设计中,我们提到合著网络的潜在连边中存在较为明显的正负样本失衡现象,即较少的新连边和较多的缺失连边,但我們人为的将数据集中新连边和缺失连边的比重设为1∶1,本节通过增大缺失连边的比重探究抽取数据样本对合著关系预测模型的影响。
首先将新连边和缺失连边的比例设为1∶1、1∶10、1∶20、1∶30、1∶40、1∶50共6档,通过增大上述实验数据集1、数据集2中缺失连边的数量,使用随机森林方法,对6档比重分别进行预测,并观察其预测效果。具体结果见图7所示。图7不同比重数据集的预测效果比较
由图7可知,两个数据集中随着缺失连边比重的增加,F1值和AUC值不断下降,说明提高缺失连边的比重,合著关系预测模型的预测呈下降趋势。但是随着缺失连边比重的不断增加,准确率呈上升趋势,预测精度出现上下波动,而召回比重呈逐步下降趋势。准确率的上升是由于随着缺失边的不断增加,合著关系预测模型预测对的缺失连边的数量也随之增加,从而降低对新连边预测错误的比重,但这里准确率增加的意义不大,因为研究目的是预测哪些边会是新边,而非预测缺失边。由于精度考察的是预测模型判定为合著关系的作者对中真正存在合著的比例,该值的上下波动变化反映出数据正负样本比例的不平衡,降低了预测模型的稳定性。召回则考察预测模型对实际存在合著关系的作者对预测正确的比例,该值在数据负样本比例逐步增加的情况下呈现不断下降的现象,说明数据正负样本的不平衡将导致预测模型对实际存在合著关系作者对的发现能力变弱。
通过对图7的分析可知,用于生成合著关系预测模型的数据集中正负样本比例的不平衡将降低模型的整体预测效果。因此,如何合理的抽取数据样本对构建合著关系预测模型就显得尤为重要。
53合著网络新进作者的处理
在合著网络演化过程中存在着一类特殊作者,这类作者在当前合著网络中不存在,但在下一阶段合著网络中新加入的作者,统称为新进作者。
由于这类作者不存在于前一阶段的合著网络中,因此没有网络结构信息,个体属性信息也不甚完备,我们无法基于指标体系获取该节点的相关指标度量值,所以我们不能直接使用本文所构建的模型对这类新进作者的合著关系进行预测。针对这一问题,我们首先对指标体系中涉及到的相关基础指标,根据需要为其赋值基础指标在数据集上的平均数)。然后,计算出指标体系中的指标值,从而使用合著关系预测模型进行预测。
6结论
本文综合作者网络结构特性、作者属性特征和合作计量指标构建指标体系,抽取图情领域核心作者的合作网络数据建立数据集,通过实例验证了预测模型的可行性,并基于预测模型所得到的指标重要性系数发现,基于作者合作计量的指标对于预测哪些合著网络未来会产生连边有较强的重要程度,而论文数之积、合作过机构的相似度、是否同一机构3个个体属性指标对预测的重要性也较高,研究兴趣相似度的重要性则偏低。另外,在网络结构指标中,只有中介中心性之差和PA指标的重要性较高,而基于共同邻居思想而产生的CN指标、Jaccard指标、AA指标的重要性都比较低。
合著关系受到多种因素的影响,在未来的研究中,应尽可能的收集更多的信息,构造更有价值的指标,比如在作者属性上可增添年龄、性别等属性;在研究兴趣的相似性上,可通过算法对全文进行自动摘要,进而再通过对比文献摘要实现更好的研究兴趣匹配度测量;在合著网络构建时可选择更粗的细粒度筛选作者等。期望本文的研究有助于科研人员更好的理解科研合著网络的关系行为模式,也为相关作者或论文推荐系统提供借鉴。
参考文献
[1]张斌,马费成.科学知识网络中的链路预测研究述评[J].中国图书馆学报.2015,41(217):99-113.
[2]Lü L,Zhou T.Link Prediction in Complex Networks:A Survey[J].Physica A:Statistical Mechanics and its Applications,2011,390(6):1150-1170.
[3]吕琳媛.复杂网络链路预测[J].电子科学大学学报,2010,39(5):651-661.
[4]Wang P,Xu B W,Wu Y R,et al.Link Prediction in Social Networks:The State-of-the-art[J].Sciece China Information Sciences,2014,58(1):1-38.
[5]哈林顿,李锐,等.机器学习实战[M].北京:人民邮电出版社,2013.
[6]Yan E,Guns R.Predicting and Recommending Collaborations:An Author-institution and Country-level analysis[J].Journal of Infometrics,2014,8(2):295-309.
[7]Al Hasan M,Chaoji V,Salem S,et al.Link Prediction Using Supervised Learning[C]//SDM06:Workshop on Link Analysis,Counter-terrorism and Security,2006.
[8]Guns R,Rousseau R.Recommending Research Collaborations Using Link Prediction and Random Forest Classifiers[J].Scientometrics,2014,101(2):1461-1473.
[9]Pavlov M,Ichise R.Finding Experts by Link Prediction in Co-authorship Networks[C]// International Conference on Finding Experts on the Web with Semantics.CEUR-WS.org,2007:42-55.
[10]Zhang J.Uncovering Mechanisms of Co-authorship Evolution by Multirelations-based Link Prediction[J].Information Processing & Management,2016.
[11]Uddin S,Hossain L,Rasmussen K.Network Effects on Scientific Collaborations[J].PLoS ONE,2013,8(2):1-12.
[12]Liben-Norwell D Kleinberg J.The Link-prediction Problem for Social Networks[J].Journal of the American Society for Information Science and Technology,2007,58(7):1019-1031.
[13]Ndez-Delgado M,Cernadas E,Barro S,et al.Do we Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15(1):3133-3181.
(責任编辑:陈媛)2018年11月第38卷第11期现代情报Journal of Modern InformationNov.,2018Vol38No112018年11月第38卷第11期交互记忆系统及其在信息系统研究中的应用与展望Nov.,2018Vol38No11
收稿日期:2018-08-11
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 2:33:27