PageRank算法在学术网络平台中的应用研究
白莹莹
摘 要:随着学术网络平台上科技论文的大量发表,高效地从复杂的学术网络中找到符合用户需要的有价值的文章及其作者成为当前一项重要而困难的工作。文章首先对学术社区发现算法的研究现状进行说明;然后对论文排名和作者影响力评估算法进行论述;最后总结论文排名和作者影响力评估算法存在的不足和面临的挑战,并对学术影响力排名的发展前景进行展望。
关键词:学术社区;文献排名;PageRank算法;作者影响力
随着科技的进步,越来越多的学者参与到科学研究工作当中,导致文献的数量呈现海量增长。这些文献为我们开展研究工作提供了很大方便的同时也带来了一些困难。在开展科研工作的过程中,我们不可能阅读所有的文献,而是要在大量的数据中找到属于自己研究领域的高水平文章和学者。这时就需要根据论文信息构建学术网络,并根据论文的主题对学术网络进行领域划分。目前,学术网络的相关研究得到了相当大的关注,是极具活力和热度的研究领域。
1 学术社区发现
近年来,很多学者研究复杂网络的社区结构得到许多不同的理论,提出了很多社区划分算法,例如基于图分割的算法、基于层次聚类的算法、基于模块度优化的算法和基于启发式社区挖掘的算法等。
Kemighan等[1]提出了著名的K-L算法,主要是将效益函数和贪婪算法相结合来划分网络中的节点,或者将不同社区节点的位置进行交换,最终划分社区;辛娟娟[2]提出了一种基于拉普拉斯矩阵的谱特征划分网络社区的谱二分法;唐杰等[3]运用不同的函数对谱二分法进行改进,降低了算法的时间复杂度的算法也被提出;Girvan等[4]提出了GN算法,通过删除最大网络边界数来实现社区划分;运用统计学方法,一种与GN算法类似的算法被提出,降低了算法运行的时间复杂度;Newman[5]提出“模块度”的概念用来评价社区质量好壞,他们认为模块度越大,社区结构越明显。随着对模块度概念的进一步理解,研究者提出许多关于优化模块度来寻找网络社区最佳划分的算法。
在社区发现算法中,标签传播算法因其简单高效而被广泛应用,但是算法也存在着准确率低、稳定性差、易产生标签震荡现象的缺点[6]。针对这些情况,很多科研人员提出了改进的标签传播算法,在传统标签传播算法的基础上改善了标签的更新策略和传播策略,从而在保证算法效率的基础上提高了算法的准确性和稳定性,提升了社区划分的质量。
2 文献排名算法
目前国内外对于文献排名算法的研究有很多,很多学者根据引文网络和链接网络的相似性将PageRank算法应用到文献排名算法中,其计算公式如下:
其中,N为引文网络中文献总数;PR(A)表示引用了文献A的文献Pi的PageRank值;C(Pi)表示引用了文献的文献数;α为处于0~1之间的经验常数。
随着PageRank算法的广泛应用,有学者开始在学术文献排名中将PageRank算法和其他指标相结合来得到更好的排名结果[7]。Age-based PageRank算法[8]加入论文发表时间来改进排名算法;CiteRank算法是针对引用网络而设计的一种文献排名算法,它是一种基于文献发表时间和随机游走的方式对文献进行排名的算法;FutureRank算法用来实现文献未来的影响力的排名;和PageRank算法一样,HITS算法最初也被用来定义网页的重要性,刘大有等[9]将HITS算法应用到学术网络中,定义了一对与作者相关且彼此关联的评分标准一撰写权威值和引用权威值,并基于FutureRank算法将文献发表时间作为影响未来引用频次的因素,预测文献价值。
3 作者影响力评估
作者是学术活动中的主体,作者影响力评估是当前学术领域研究的热点问题,获得了科研工作者的广泛关注,具有较强的应用价值。
Hirsch[10]将作者的发文量和被引次数进行综合考量,提出h指数(H-index)[11]对作者进行评价研究,h指数是指某位学者至多有h篇论文分别被引用了至少h次,H-index综合考虑了作者的发文数量和文献的被引用次数;此后很多学者考虑到h指数的缺陷,在此基础上对h指数进行修正,提出了一系列衍生算法。
传统的PageRank算法评价作者影响力的算法评价作者的影响力忽略了时间因素,发表时间越久的论文被引用的次数可能更多,相应的PageRank值越大。但是在现实生活中,我们一般认为最新发表的论文应该具有更大的参考价值;H-index算法只考虑文章的被引频次,忽略了文章本身的价值。文章结合这两个算法,并加入时间因素对算法进行改进[12]。
4 作者影响力评估算法的改进
作者影响力评估算法改进的思想是:基于论文的引用关系矩阵[13],使用PageRank算法迭代计算每篇文章的PageRank值,然后基于作者和论文之间的关系矩阵采用HITS算法迭代求解作者和文献的权威值[14],同时考虑加入时间因素对文献排名算法进行改进,用改进的PageRank算法对社区内的文章进行影响力排名。
在文献排名的基础上对作者的影响力进行排名,使用改进的PageRank算法替换H-index算法中的引用数,可以得到一个改进的作者影响力评估算法。
5 结语
随着科研工作的发展,越来越多的学者参与到科研工作中,大量的学术论文被发表。如何从庞大的科研工作数据库中找到影响力较大的作者和文献,是目前影响力评估算法研究的重点工作。本文对社区发现、论文排名和作者影响力评估相关算法研究成果进行分析综述,总结了算法改进的措施,确定了下一步研究内容,为未来学术网络的研究提供帮助。
[参考文献]
[1]KEMIGHAN B W, LIN S.An efficient heuristic procedure for partitioning graphs[J].Bell System Technical Journal, 1970(49):291-307.
[2]辛娟娟.社区划分算法的研究与应用[D].北京:北京林业大学,2015.
[3]唐杰,宫继兵,刘柳,等.基于话题模型的学术社会网络建模以及应用[J].中国科技论文在线,2011(1):25-31.
[4]GIRVAN M,NEWMAN M E J. Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences, 2002(12):7821-7826.
[5]NEWMAN M E J. Modularity and community in networks[J].Proceedings of the National Academy of Sciences, 2006(23):8577-8582.
[6]张俊丽,常艳丽,师文.标签传播算法理论及其应用研究综述[J].计算机应用研究,2013(1):21-25.
[7]ERJIA Y, YING D. Discovering author impact:a page rank perspective:information processing and management[M].Amsterdam Elsevier Ltd., 2011.
[8]SAYYADI H, GETOOR L. FutureRank:ranking scientific articles by predicting their future PageRank[C].Siam International Conference on Data Mining , 2009 :533-544.
[9]刘大有,薛锐青,齐红.基于作者权威值的论文价值预测算法[J].自动化学报,2012(10):1654-1662.
[10]HIRSCH J E.An index to quantify an individuals scientific output[J].Proceedings of the National Academy of Sciences of the United States of America, 2005(46):16569-16572.
[11]YAN R, TANG J, LIU X, et al. Citation count prediction:learning to estimate future citations for literature[C].Proceedings of the 20th ACM International Conference Information and Knowledge Management, Association for Computing Machinery, 2011:1247-1252.
[12]周金夢.基于学术异构网络的学者影响力评估算法[D].大连:大连理工大学,2016.
[13]曾玮.文献排名预测算法及作者影响力评估算法研究[D].成都:西南大学,2014.
[14]薛锐青.基于作者权威值的论文排名预测算法研究[D].长春:吉林大学,2012.