网站首页  词典首页

请输入您要查询的论文:

 

标题 面向舆情发现系统的中文语料分词研究
范文 高慧 张涛 王付强++夏彬



摘要摘要:中文自然语言处理在舆情系统信息预处理中起着重要作用。提出一种基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。实验结果表明,该方法能够有效识别网络舆情用语,提高了分词准确率,为进一步发现高校网络舆情奠定了基础。
关键词关键词:舆情系统;语料;中文分词
DOIDOI:10.11907/rjdk.151904
中图分类号:TP312
文献标识码:A文章编号文章编号:16727800(2015)011005403
作者简介作者简介:高慧(1983-),女,河南汝南人,武汉理工大学信息工程学院硕士研究生,研究方向为信息检索。
0引言
随着互联网的飞速发展,网络媒体已被公认为是继报纸、广播、电视之后的“第四媒体”,中国互联网络信息中心(CNNIC)第34次互联网发展状况调查报告指出,截至2014年6月,中国网民规模达到6.32亿人,互联网普及率达到46.9%,网民规模较2013年底增加1 442万人。在庞大的互联网信息书籍中,仅依赖人力已经很难去收集和处理网络中的海量信息。因此,需要加强研究互联网相关信息技术的发展,形成一整套对网络舆情进行自动化智能分析的系统,及时快速应对网络中突发的舆情信息,把被动防堵变为主动的分析与引导。
在舆情发现系统中,对网络爬虫采集到的信息进行预处理是系统的关键环节,而在信息预处理中,中文语料分词是自然语言处理中重要的一步,良好的中文分词对后续的中文信息处理起到至关重要甚至是决定性的作用。
因此,针对中文自然语言处理在舆情系统信息预处理中的重要性,本文采用一种基于ICTCLAS的中文舆情语料分词方法,并结合高校舆情环境进行了实验。
1中文分词
中文分词与英文分词有较大区别,对于英文而言,一个单词就是一个词,而汉语中则是以字为基本的书写单位,词语之间没有明显的区分标记,需要人为进行切分。它的基本处理过程是:针对输入的文字串进行分词、过滤处理,输出中文单词、英文单词和数字串等一系列分割好的字符串。中文分词模块的输入输出如图1所示。
图1分词过程
根据当前技术发展现状及文献记载,现有的中文分词算法可分为3大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法[35]。
1.1基于字符串匹配的分词方法
这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字字符串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功,完成对该词的成功识别。常用的几种机械分词方法如下:①正向最大匹配法(由左到右的方向);②逆向最大匹配法(由右到左的方向);③最少切分法(使每一句中切出的词数最小)。
1.2基于理解的分词方法
这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的目的。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它主要包括3个部分:分词子系统、句法语义子系统、总控部分。由于汉语语言知识的复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此,目前基于理解的分词系统还处在试验阶段。
1.3基于统计的分词方法
从形式上看,词是稳定的字的组合,在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此,字与字相邻共现的频率或概率能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组构成了一个词。基于统计的分词方法只需对语料中的字组频度进行统计,不需要切分词典,因此又称为无词典分词法或统计取词方法。
2舆情系统中的中文语料分词
2.1网络舆情特点
互联网除了具备社会舆情即时性、随意性、隐蔽性、渗透性和发散性等特征,还具有自身独有的特点[67]。
(1) 突发性。一个热点事件的发生,在一种情绪化的观点催动下,各种渠道的意见迅速互动,瞬间就能点燃一片舆论的导火线,形成强大的舆论声势。
(2) 互动性。对某一焦点问题展开讨论时,赞成方和反对方的观点同时出现,彼此交汇碰撞,相互探讨争论,这种网民之间的实时深度互动,能使各种观点快速集中地表达出来。
(3) 丰富性。由于网上话题极为广泛,网民对话题的确定又是自发的、随意的,涉及到社会各阶层和各领域以及社会生活的方方面面。这种包罗万象的网上舆情,鱼目混杂,既有积极健康的言论和情绪表达,也有庸俗和非法的信息传播。
(4) 偏差性。由于一些网民把互联网作为情绪表达的场所,将现实生活中的压力和挫折转化为灰色消极的言论,通过网络得以宣泄,而网民间的感性情绪又会互相感染,由此产生的网络舆情就变成个人情绪与群体情绪互动催发的结果,这种结果往往与事实存在较大偏差,但却具有很强的煽动性和破坏性,很容易引发有害民调和危险舆论。
2.2舆情发现系统关键技术
网络舆情发现系统所要达到的目标是通过一种科学而有效的手段对互联网海量信息进行处理、分析,获取舆论趋势,了解社会动态。其关键技术包括:网络信息采集技术、信息预处理技术和网络舆情分析技术[810]。
(1)网络信息采集技术。主要通过网络爬虫来完成信息采集。网络爬虫实际上是一种能够自动下载网络资源的Web应用程序,它能够判断所搜索的内容是否丰富以及信息能否及时更新,网络爬虫在抓取某个互联网页面时,爬虫程序会首先通过分析 HTML 标记结构来抓取信息,同时获取此页面上的超级链接,以此类推,再根据搜索策略选择下一个要搜索的站点。
(2)信息预处理技术。通过爬虫抓取的网页属于半结构化信息,这种半结构化信息不能满足后续的信息处理要求。因此,需要对这些网页信息进行结构化处理。在网络海量结构化信息处理过程中,必须进行中文分词,中文分词方法对后续的信息处理能起到至关重要的作用。
(3)网络舆情分析技术。网络舆情发现技术主要是根据网民发表意见时间密集程度,分析出特定时间段内的热点话题,并对关键词和发言频率进行语义分析,识别出敏感话题。同时,对涉及内容安全的热点和敏感话题进行及时监测并发出警报。
2.3ICTCLAS分词法
ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System,简称ICTCLAS),它的主要功能包括:中文分词、词性标注、命名实体识别和新词识别功能,同时,还支持用户自定义词典。ICTCLAS提供GB2312和BIGS等多种版本,可以对简体或者繁体中文分别进行处理;ICTCLAS支持当前广泛承认的分词和词类标准,开发者可以根据需求,自定义输出的词类标准和输出格式,进而达到想要的分词效果。
ICTCLAS采用了层叠隐马尔可夫模型(Hierarchieal Hidden Markov Model),达到了非常好的分词效果。在3.0版本中,分词速度单机达到了900KB/S,分词精度也达到98.45%,而提供给开发者的应用程序接口却不超过200KB,各种词典文件经压缩后也不到3M,具有较优的性能和效果。
3实验结果分析
3.1中文语料选取
实验选取的中文语料数据来自新浪网论坛(http:// bbs.sina.com.cn)下的体育沙龙、新浪杂谈、养生保健3个版块的500条主帖和500条回帖,1 000条左右评论。
3.2评测方法
评测采用863评测所用的2个指标:准确率(P)、召回率(R)。各指标定义如下:
P=正确切分的数量[]总的切分数量*100%(1)R=正确切分的数量[]测试集中实有切分的数量*100%(2)
3.3结果分析
对实验选取的1 000条中文语料,逐一进行分词实验。其中,对其中一条语料实验:http://go.bbs.sina.com/t/2015-07-01/003376 45513.shtml,如图2所示。
将3个版块中的中文语料作为实验数据集,对这些评论进行分词测试分析和综合统计,在封闭测试中,ICTCLAS分词方法具有较高的识别率,切分词速度较快,具有优越的性能。同时,实验语料库的规模将直接影响分析结果,当语料全面、覆盖面广时,识别率将大幅提高。
4结语
本文针对舆情发现系统中信息预处理的分词需求,在深入分析了舆情系统特点的基础上,提出了采用基于ICTCLAS的中文舆情语料分词方法。它通过采用层叠隐马尔科夫模型,将中文分词、词性标注、歧义词处理和未登录词识别进行系统集成,形成整体的系统框架。在分词实验中,该方法有效提高了中文语料分词的效率和准确性,进而为后续的舆情发现提供了较好的基础,具有很好的应用前景。
如何结合不同类型的语料进行分词方法设置,更好地为后续的信息处理服务,将是下一阶段研究的工作。
参考文献参考文献:
[1]奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):4144.
[2]黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):819.
[3]翟凤文,赫枫龄,左万利.字典与统计相结合的中文分词方法[J].小型微型计算机系统,2006,27(9):17661771.
[4]龙树全,赵正文,唐华.中文分词算法概述[J].电脑知识与技术,2009:10(5):5658.
[5]何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,5(12):8991.
[6]刘毅.网络舆情研究概论[M].天津:天津人民出版社,2007,10(5):6669.
[7]侯松.面向网络舆情态势分析的文本分类研究[D].长沙:国防科学技术大学,2009.
[8]王伟,许鑫.基于聚类的网络舆情热点发现及分析[J].现代图书情报技术,2009,15(3):7479.
[9]肖婷,唐雁.改进的统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136137.
[10]付年钧,彭昌水,王慰.中文分词技术及其实现[J].软件导刊,2011,10(1):1820.
责任编辑(责任编辑:杜能钢)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/15 9:51:55