网站首页  词典首页

请输入您要查询的论文:

 

标题 社交媒体中学术信息在关键词抽取中的应用研究
范文 赵瑞
摘 要:社交媒体作为人们日常信息发布的重要方式,其中包含了大量有价值的学术信息。利用社交媒体中对科技文献的描述或评论信息,挖掘其在辅助关键词的自动提取方面的潜力。文章提出了通过社交媒体上发布的科技文献相关描述构造背景信息,并在模型中添加背景信息以提升关键词自动抽取的效果。在不同模型上的对比实验,验证了方法的有效性。
关键词:社交媒体;文献信息;关键词抽取;信息抽取
社交媒体的流行,让越来越多的研究人员乐于在社交媒体上分享关于学术研究的信息。社交媒体上包含了很多科研人员在分享或评论科技文献时对文献内容的转述或概括信息,这些信息一方面帮助读者快速了解文献主题,另一方面可以作为有价值的背景信息,辅助文献主题的概括提炼。本文利用Twitter上用户在分享或评论科技文献的描述信息作为背景信息,然后根据主题相关性筛选背景信息,最后将过滤后的背景信息加入到关键词自动抽取模型中,实现科技文献的自动抽取。通过对比实验,加入社交媒体背景信息的模型在抽取效果上有明显提高。
1 相关工作
利用文档内部信息进行关键词抽取是现有关键词自动抽取的主流方法。例如,Salton等提出的基于统计的TF-IDF抽取方法就是借助文档的词频特征来抽取关键词,具有简单易行的优点。针对中文文档,徐文海等也提出了一种基于TF-IDF的关键词抽取方法,该方法首先对中文文档进行分词处理,然后利用词的TF值和IDF值进行加权排序实现关键词抽取[1]。除了考虑词频特征外,词语出现的位置信息也可以作为关键词抽取的特征。Mihalcea等提出了基于图模型的关键词抽取方法。罗准辰等提出了一种基于分离模型的中文关键词提取方法,该方法分别针对词和短语设计特征以提高关键词自动抽取效果[2]。Witten等利用机器学习的方法来抽取关键词,他们选取文档中词语的位置特征、词频特征等来训练机器学习模型。在抽取关键词时,除了考虑待抽取文档本身的信息,同时也考虑与待抽取文档相关的其他知识。Grineva等提出利用维基百科的文章题目和链接结构来构造图模型抽取关键词的方法。Luo等借助评论信息来提高新闻的关键词抽取效果,该方法首先对评论信息进行了筛选,然后利用有效的评论信息来抽取关键词。
社交媒体推文作为一种信息资源,越来越受到研究者重视。Ebner等通过研究Twitter信息随时间的分布情况,提出Twitter信息网络可以发现科研团队中的领头人。Stankovic等对Twitter信息进行话题分析,提出一种会议数据抽取模型,能够自动抽取Twitter中的话题并分类。Gilbert等你用社会结构与社会关系学的方法,研究了Twitter传播网络,从而识别“学识渊博者”。本文将社交媒体信息应用于科技文献的关键词自动抽取,提出了一种基于社交媒体构造科技文献背景信息,用来提升科技文献关键词抽取效果的方法。通过构建实验数据集,并在不同抽取模型上进行实验,验证方法在关键词自动抽取方面的有效性。
2 方法
2.1 背景信息获取
本文选取计算机与信息科学领域5项国际会议上发表的部分论文为研究对象(信息与知识管理会议CIKM、自然语言处理顶级会议EMNLP、数据挖掘顶级会议KDD、国际机器学习大全ICML与信息检索会议SIGIR),对社交媒体上包含相关论文评论或转述的信息进行收集。
考虑到Twitter在学术数据密集性和数据开放获取上的优势,本文选取Twitter作为社交媒体学术背景信息数据来源。利用Twitter的主题标签功能对会议相关信息进行搜索,然后通过Twitter提供的数据API收集推文信息。最后,通过人工阅读,将推文信息与其描述的文献进行关联。
2.2 关键词自动抽取流程
本文采用的关键词自动抽取流程。首先,运用2.1中的方法获取文献的社交媒体背景信息,然后对背景信息进行筛选,之后将筛选后的背景信息与待抽取文档进行合并,最后对合并文档进行预处理,并采用常用的关键词抽取器进行处理得到关键词。
考虑到待抽取文献相关的推文中可能存在一些与文献主题不相关的主题,因此在正式合并推文背景信息前添加了一个筛选过程,去掉与论文主题不相关的推文。另外,抽取的關键词中可能只在背景信息中出现,而没在待抽取文献中出现,这类关键词显然是不合理的。因此,最后的过滤过程就是要将这类关键词排除。
关键词通常是名词性短语,故预处理时需要对待抽取文献进行词性标注。本文采用了斯坦福大学开发的Loglinear Part-Of-Speech Tagger工具来完成词性标注。关键词抽取器则采用的是较为成熟的工具,主要用到三种:基于统计的TF-IDF算法、基于图模型的SingleRank算法和基于机器学习的KEA算法。
3 实验分析
3.1 实验数据集
按照2.1的方案,本文从Twitter上获取了与72篇论文相关的853条推文信息作为实验数据。考虑到待抽取文献中关键词的数量不一,有的文献没有给出关键词,有的文献给出的关键词数量过少,本文对72篇文献的关键词进行了人工标注,让每篇文献的关键词数量为5~7个。
3.2 评价指标
为评价本文所提方法的抽取效果,选择准确率(P)、召回率(R)和F1值作为评价指标,其计算公式如下:
P=自动抽取的正确关键词数/自动抽取的全部关键词数
R=自动抽取的正确关键词数/人工标注的全部关键词数
F1=2PR/(P+R)
3.3 实验内容
首先利用现有的抽取器对待抽取文档抽取关键词,并计算其P、R和F1值;然后按照2.1和2.2所述方法,对加入了背景信息的合并文档采用同样的抽取器进行处理,并计算P、R和F1值。为了验证方法的有效性,本文选择了三种不同类型关键词抽取器进行实验,分别是基于统计的TF-IDF方法、基于图模型的SingleRank方法和基于机器学习的KEA方法。三种方法都是常用的自动抽取关键词方法,在不同领域均有良好的应用。其中TF-IDF和SingleRank属于无监督方法,KEA属于有监督学习方法。
实验结果如表1所示,其中“*”标记的表示添加社交媒体背景信息的抽取结果,N表示抽取的关键词个数。
从上表可以看出如下趋势:抽取的准确率(P)随着抽取关键词个数的增大而降低,召回率(R)随着抽取关键词个数N的增大而增大,F1值随着N的增大而先增后减。科技文献给出的关键词一般不会超过10个,所以本文选取N=10的对比实验结果进行分析。TF-IDF的F1值分别为17.5%和20.4%,添加背景信息的抽取效果提升了17%。就F1值而言,SingleRank和KEA添加背景信息后在原基础上效果分别提升了10%和5%。
实验结果表明,本文提出的添加社交媒体背景信息辅助关键词自动抽取方法,对于无监督方法TF-IDF和SingleRank效果提升明显,而对于有监督学习方法KEA的提升效果相对较小。经过分析,我们认为背景信息在一定程度上会将关键词的特征突出得更为显著。TF-IDF方法主要是根据词频特征值进行排序抽取的,添加背景信息后会进一步提高关键词的词频特征值,因而会提升抽取效果。SingleRank方法将词作为图的节点,通过词共现建立图模型以描述文档,然后通过词的频次和节点之间的联系计算图节点的权值,最后选取权值高的名词性图节点作为关键词。背景信息的加入增加了关键词的频次和其节点间的联系,故提升了关键词的权值,因此提升了抽取效果。而对于KEA是以词第一次出现的位置和频次作为特征进行训练的,而背景信息的添加对关键词第一次出现的位置影响不大,所以抽取的改进效果有限。另外,KEA模型的训练数据是没有添加背景信息的,也有可能是提升效果不明显的原因。
综上所述,实验结果表明对于TF-IDF和SingleRank这类无监督的方法,添加社交媒体背景信息可以有效提升关键词提升效果。而对于有监督的机器學习方法,背景信息的添加对关键词自动抽取的改进效果不明显。
4 结束语
针对科技文献关键词自动抽取这一问题,本文提出了添加社交媒体背景信息以提升抽取效果的策略。实验结果表明,社交媒体背景信息可以有效提升无监督类抽取方法的效果,从而证明本文所提策略的有效性。社交媒体信息对于理解相关文献的主题具有一定帮助,如何在有监督的机器学习方法中更好地运用社交媒体信息,是一个值得进一步研究的问题。
参考文献
[1]徐文海,温有奎.一种基于TFIDF方法的中文关键词抽取算法[J].情报理论与实践,2008,31(2):298-302.
[2]罗准辰,王挺.基于分离模型的中文关键词提取算法研究[J].中文信息学报,2009,23(1):63-70.
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/11 6:44:00