基于专家知识的评审专家推荐算法研究

    冷昕阳

    

    

    摘要:科研论文是科学研究的重要表现方式,是引领技术发表的指南针。对论文发表流程的把控是保证论文质量的关键。在论文的发表过程中,为其寻找特定的评审专家又是论文发表中关键的一环。因此,为了保证论文的质量,应为投稿论文选择合适的评审专家。本研究首先收集候选专家已发表的科技论文作为分析专家知识的基础,然后,分析投稿论文的研究内容,提取投稿论文的研究主题,最后,把专家推荐的问題建模成一个信息检索的问题,采用向量空间模型(Vector Space Model, VSM)来计算投稿论文的研究内容与专家知识的相关性,并以此为依据为投稿论文推荐出特定的审稿专家。

    关键词:推荐系统;主题提取;评审专家推荐

    1.引言

    信息过载是各行各业所面临的一个严重问题,如电子商务网站,需要针对每位用户的需要,在海量的商品信息中,判断出用户更倾向于要购买的商品;如公司的招聘人员,需要在大量的求职者中,识别有能力的求职者给予进行面试机会;如期刊的编辑需要面对庞大的评审专家库,识别出合适的评审专家来对投稿论文进行审稿。推荐系统的出现在一定程度缓解了过量的信息给人们所带来的压力,在一定程度上提高了工作的效率,并迅速扩展到其它领域。然而,目前关于推荐系统大多都应用到电子商务、社交网络以及数字图书馆等领域,而较少对评审专家推荐的研究,即根据投稿论文的研究特征来推荐合适的评审专家。

    在学术环境下,同样也暴露出信息过载等问题,许多的科研成果需要依靠论文的形式来让其他同一领域的科研人员也了解到,这时期刊编辑部对于论文的评选应该更加细致认真,以防止投稿论文审稿工作分配不当导致出现偏差。然而若单纯的靠人工的遴选便会有许多弊端。比如:在选择上会带有不可避免的主观性以及对于专家信息的更新不够及时等因素,这些都会导致有些真正有价值的论文没有及时发表从而导致学术领域的发展减缓。而且在海量的信息面前仅依靠人去识别区分显然工作效率很低也浪费时间。在这种情况下专家推荐系统应运而生,评审专家推荐系统使这份工作变得十分简单。

    评审专家推荐系统能够针对投稿论文遴选出合适的审稿专家,该系统首先提取专家知识并分析投稿论文的研究内容,理解编辑需求,并为编辑推荐合适的评审专家。随着投稿论文的数量持续增长以及专家知识的扩散性,充分准确的理解专家知识对于编辑来说是十分困难,因此,能够自动分析专家知识,为投稿论文遴选出合适的审稿专家的系统显得尤为必要。

    本研究首先收集候选专家已发表的科技论文作为分析专家知识的基础,然后,分析投稿论文的研究内容,提取投稿论文的研究主题,最后,把专家推荐的问题建模成一个信息检索的问题,采用向量空间模型(Vector Space Model, VSM)来计算投稿论文的研究内容与专家知识的一个相关性和匹配度,并以此为依据为投稿论文推荐出特定的审稿专家。

    2.相关研究

    专家推荐系统的构建,主要包括专家的选择以及专家特长的识别,从而基于专家的特长属性与查询条目的匹配相关性进行推荐。目前,就专家特长角度而言,主要来源于两个方面,一种是专家个人提供关于自身特长和经验的准确和综合的文档描述;另一种则是通过文章、Email交流以及学术论坛挖掘专家的特长信息;由于第一种方法主观性较高,所以大多数学者都是从第二种角度出发对于专家特长识别进行研究。

    基于主题信息的专家推荐主要是借助于关键词、作者的学科标签等信息为稿件遴选相关的专家。例如,刘一星[1]等学者把评审专家推荐的问题视为一个分类问题,该研究首先把投稿论文对应到相应类别中,再从该类别中寻找相关的专家对投稿论文进行评审。余峰[2]等学者首先把利用文本相似度的计算方法,首先把专家知识和投稿论文的研究内容向量的形式表示出来,然后,再利用相似度公式计算投稿论文与专家知识的相关性。巩军[3]等学者引入知识图的方法来为投稿论文推荐相关的评审专家,该研究首先把投稿论文的研究内容和专家知识映射到反映知识相似性的知识地图中去,然后,计算投稿论文和候选专家在在知识地图的相关性距离为投稿论文遴选合适的专家。Gollapalli[4]等人通过ADT(Author- Document- Topic)以及主题模型建模工具,建立作者、文档以及主题之间的权重关系图,进而通过计算图和路径计算任何一对节点的相似度,进而发现在不一定具有合作作者关系的情况下,达到基于内容的专家发现,从而用以进行专家推荐。

    3.研究方法

    3.1 研究思路

    本研究主要包括三大步骤:数据准备、数据预处理、计算专家与论文的匹配度以及专家推荐。

    (1)数据准备:该部分主要收集两部分的数据:一个是专家库,其中包括专家的个人信息(隐私信息除外)比如名字、年龄、主要的成就等等,并遴选出专家被引量较高的几篇论文作为其代表作。另一方面就是投稿论文的数据库的建立,本研究从万方数据库中随机遴选出几篇论文作为投稿论文。

    (2)数据预处理:从“万方数据库”中爬取专家发表的论文后,遴选出高被引的论文作为其知识的表示。另外,从“万方数据库”中随机遴选出投稿论文作为评审专家推荐算法的输入数据。本研究首先通过停用词表将常用词筛选出去,停用词表是人为的建立的常用语集合的一个文档,将常用词,没有实际意义,没有实际指代的词生成一个集合,形成一个停用词表。筛选出去之后会得到专家论文的词表以及投稿论文的词表,然后用TF- IDF算法分别计算每个词针对于专家知识和投稿论文研究内容的权重。

    (3)计算专家与论文的匹配度以及专家推荐:利用空间向量模型计算投稿论文与专家适应的余弦相似性,并降序排列计算出的结果,排在最前面的专家就说明这些专家与投稿论文匹配度高,最后只需将论文送至这些专家然审阅。

    3.2数据获取与数据预处理

    数据获取主要是从“万方数据库”中获取专家姓名、专家的主题标签、专家发表的论文等数据。依据论文被引数来评价论文质量,遴选出专家被引量较高的几篇论文作为其代表作,将其作为提取专家知识、分析专家研究方向的基础。另一方面就是投稿论文的数据库的建立,本研究从万方数据库中随机遴选出几篇论文作为投稿论文,作为评审专家算法的输入。

    数据获取后,需要对专家发表的论文以及专家主题关系词等信息进行分词操作。为了使计算机更好的理解语句的含义,我们应该把一句话变为一个个独立的词。我们知道,在英文的书写习惯中,空格是分隔词与词的主要标志。然而,在中文的行文习惯中,没有明顯的标志区分不同的词。因此,本研究需要首先对专家发表论文以及专家兴趣描述等数据进行分词处理。在这里,我们使用IK Analyzer作为分词工作,IK Analyzer是一个基于Java语言开源的中文分词工具。

    3.3特征选择

    这里介绍一个TF- IDF(Term Frequency–Inverse Document Frequency)算法,该算法是一种常用关键词遴选工具,TF- IDF算法的思想如果一个词在一篇文章中出现的频率越高,则说明该词对于该篇文章越重要;如果这个词在其它文章中出现的次数很少,则认为此词或短语具有越高的区分能力。在本研究中,我们借助IF- IDF计算每个词的权重。

    3.4评审专家知识与投稿论文相关性计算

    本研究以投稿论文的研究内容与专家知识的相关性为依据为投稿论文遴选出合适的评审专家。本研究引入向量空间模型(VSM, Vector Space Model)计算两者的相关性。VSM算法是借助于词表和遴选关键词的权值把投稿论文的研究内容和专家知识表示为空间向量,并利用COS来计算两个向量的夹角,表示其相关性。第i位候选专Ei家与投稿论文S之间的相关性标记为:

    4.结论

    科研论文是科学研究的重要表现方式,是引领技术发表的指南针。因此,对论文发表流程的把控是保证论文质量的关键。在论文的发表过程中,为其寻找特定的评审专家又是论文发表中关键的一环。因此,为了保证论文的质量,首先应该建立科学合理的评审专家遴选与推荐方法。然而,目前关于推荐系统的大多都应用到电子商务、社交网络以及数字图书馆领域,而较少的对评审专家推荐的研究。为此,本研究首先从专家的研究兴趣描述、专家发表的论文以及相应的资料数据中挖掘专家知识并利用停用词表对无实际意义的词以及特殊符号进行剔除,并用IF- IDF为每个代表性的词计算权重,然后,计算投稿论文的研究内容与专家知识之间的相关性,并以此为依据为投稿论文遴选出相关的专业。

    但是,在专家推荐的过程中,仍有一些实际的问题值得深入探讨。例如,专家在其科研活动中发表多篇论文,但是并不是每一篇论文专家都能够以完全足够的精力投入到该论文中去。因此,在后续的研究中,我们更应该首先遴选出专家的代表作,并以此为依据遴选出相关的专家。

    参考文献

    [1] 刘一星,梁山.基于改进ATSVM算法的评审专家自动推荐模型[J].重庆科技学院学报(自然科学版),2010,01:134-136.

    [2] 余峰,余正涛,杨剑锋,郭剑毅,严馨.基于主题信息的项目评审专家推荐方法[J].计算机工程,2014,06:201-205.

    [3] 巩军,刘鲁.基于个人知识地图的专家推荐[J].管理学报,2011,09:1365-1371.

    [4] Gollapalli S D, Mitra P, Giles C L. Ranking authors in digital libraries[C]//Proceedings of the 11th annual international ACM/ IEEE joint conference on Digital libraries. ACM, 2011: 251-254.

    

相关文章!
  • 着眼于学科素养的初中化学实验

    周小英[摘要]在基础教育课程改革的背景下,结合初中化学实验教学实践,通过问题引领、启发探究、示范创新等途径优化实验教学,有利于学生

  • 质谱法测定水中溶解氙的含量及

    李军杰+刘汉彬 张佳+韩娟+金贵善+张建锋<br />
    <br />
    <br />
    <br />
    摘要 利用设计的一套水样中提取并分离Xe的装置,与稀有气体质谱

  • 中美高中物理教材难度比较分析

    常晓慧侯恕摘要:首先对中关教材的内容进行分类,然后分别对教材进行难度比较,最后给出研究结论及启示.关键词:中关高中;物理教材;难度