标题 | 网络舆情热点挖掘系统设计与实现 |
范文 | 王大鹏 张大为 张鹏??![]() ![]() 摘 要:网络舆情对政治、经济、文化和社会各方面的影响越来越大。对互联网和社交网络发布的信息及各种反馈和观点进行舆情分析与判断,是舆情挖掘的重要手段。设计了网络舆情热点挖掘系统,通过文本处理、分词处理、复杂网络聚类及舆情热点提取等功能,使纷繁复杂信息中的热点话题及其舆情得以突出体现,为舆情热点定位、分析提供了有力的工具支持。 关键词:网络舆情;数据挖掘;舆情热点 DOIDOI:10.11907/rjdk.151323 中图分类号:TP319 文献标识码:A 文章编号:1672-7800(2015)007-0111-03 基金项目基金项目:大连市社科联(社科院)与大连市高校工委联合立项课题(2013dlskybgx13);辽宁省社会科学规划基金项目(L14BWJ010) 简介简介:王大鹏(1968-),男,辽宁大连人,硕士,辽宁师范大学计算机与信息技术学院讲师,研究方向为网络工程与网络安全;张大为(1971-),男,辽宁大连人,辽宁师范大学计算机与信息技术学院副教授,研究方向为软件工程与数据挖掘;张鹏(1976-),女,辽宁大连人,硕士,辽宁师范大学管理学院讲师,研究方向为文化产业与公共危机管理。 0 引言 舆情挖掘就是找到文字表达中的某些观点、情感、情绪、价值观和态度等,通常分为积极、消极和中立几方面,是近年来自然语言处理和文本挖掘领域的研究热点 [1]。随着现代传媒技术和互联网的发展,个人声音的表达呈爆炸趋势,与之形成鲜明对比的是对这些观点的有效收集和分析滞后。收集大众舆情的瓶颈降低了预控大规模群体事件的可能性 [2]。 舆情分析在社会、科学、人文、军事和商业等各个层面具有较大的应用空间[3]。通过社会网络的舆情挖掘,用于分析政治、宗教和安全问题,并为制定相关政策提供决策支持;消费者的舆情反馈可用于产品销售、采购定价和生产制造。在网购大行其道的今天,收集客户的反馈信息,是经销商为未来的销售趋势和产品升级作预测分析的重要方式。通过对媒体反馈信息的收集可以进行公共舆情管理、广告收益评价和人文价值观评价等。 舆情挖掘的基本过程包括3个阶段[4]:①舆情检索和文本处理;②舆情分类和提取;③舆情摘要和汇总。这个基本过程得出的结论往往只有积极、消极和中立这3个人类特定情绪的价值取向判断。但舆情不止是人类特定情绪反应的总结,更准确地说是人类所关注热点的表达,如“反腐”、“医疗”、“教育”等。 本系统通过网络聚类[5-6]发现舆情热点,以达到舆情分析的目的。 1 分词向量空间 文本向量空间模型由Salton[7]等人提出,每一篇文档的向量模型为:V(d)={(t1,w1),…,(tk,wk),...,(tn,wn)} ,其中权值wk=tfk×idfk,tfk为特征词tk在文档d中出现的频率或频率函数,逆向文档频率idfk=log(Nnk),其中N为文档总数,nk为包含特征词tk的文档数,当nk为0时,定义idfk=0。由此,特征词权重wi被称为TF-IDF权重。 根据TF-IDF权重计算方法,TF越高表明其受关注度越高,IDF越大则区分度越大越切题。每个词除了TF-IDF权重特征外,还可能包含如词性、词长度等有效信息。由此,在文档空间中选择热词时,可考虑将权重修订为:w′k=wk×POS(tk)×L(tk),其中POS(tk)为词性权重,名词取2,动词取1.5,其它词性取1,L(tk)为词的长度。 利用所有文档的候选词可以构造一个面向词的向量空间:V(t)={(dt1,w′1),…,(dtk,w′k),…,(dtn,w′n)}。词向量空间是进行文本处理和舆情挖掘的主要数据结构和数据存储方法,也是系统进行舆情热点挖掘和舆情分析的主要数据对象。 2 系统设计 如图1所示,系统总体架构分为4个层次,自下而上:舆情信息检索层、分词倒排处理层、网络聚类分析层和热点舆情分析层。每个层次又分为两个子层次,每个子层次包含不同的软件处理组件。 (1)舆情信息检索。通过网络爬虫或其它网络信息收集工具,收集网上公开发表的网页、微博、贴吧、QQ、论坛和各类具有反馈信息网站中的静态、动态、交互、评价及反馈等信息,下载并转换成TXT文件。系统根据TXT文件的不同格式选择相应的转换工具,将其转换成具有标准格式的XML文件。 (2)分词倒排处理。首先读入已经转化成标准格式的XML舆情文件,根据内容特点或其它特定需求选择不同的文本分词器,如IK Analyzer或庖丁,对其分词。然后根据公式对每个分词进行加权评价,计算其相应的权值大小。倒排索引算法根据特定选择的关键字,对其属性进行倒排链接,并根据关键字权重进行降序排序。 分词处理后得到的分词数一般会很大,那些权值较小的分词对舆情热点的发现贡献不大,参与倒排索引会占用大量的计算资源和存储资源。通过设定权值阈值方法,可以将权值过小的分词过滤在倒排索引之外。 (3)网络聚类分析。根据倒排索引生成的关键字序列,运用算法或人工选择特定的关键字作为网络节点,根据事先指定好的倒排属性链中的一种或多种属性作为连接边,将节点间共享属性出现的次数作为边的权值绘制关键字网络,进行聚类分析,得到的不同聚类就是网络舆情热点。 进行网络聚类时,根据形成网络的不同特点选择复杂网络社团发现算法。复杂网络社团的形成要求社团内部节点间的边数或权值大于社团间的边数或权值。设定网络边权值的阈值,过滤掉共享属性数过低的边,可以有效形成热点关键字的社团结构。 由于网络社团的大小、密度、社团间联系紧密程度不同,采用相同的社团识别算法得到的社团质量也不会相同。通过设定网络聚类阈值参数,调整社团识别算法对边界条件的判断,会大大提高热点社团的识别质量。聚类阈值越大,聚类难度就越大,得到的聚类所体现的热点程度越高。 (4)热点舆情分析。根据网络聚类得到的热点关键字及其之间的连接属性,可以反向定位热点关键字的出处及热点关键字的关联结构,进而给出与热点气氛相符合的舆情判断。 节点间的边权值反映的是特定两个节点间的共享属性数。社团中两个以上节点共同共享的属性数,能反映这些节点共享属性交集的大小,交集越大热点越突出。通过设定热点阈值,指定共享属性交集的大小,能更高效地反向定位热词的来源,即对热点的定位。热点阈值越大,得到的热点越突出,热点定位就越准确。 3 系统运行效果 选取一个特定时间区间内的40个男性和60个女性共13 998条微博作为研究对象,以发现这些微博中的谈论热点及相关舆情。 首先读入已经转换成标准格式的XML微博文本,选择IK Analyzer作为分词器对文本进行分词,除了得到每条微博的分词结果外,还能得到微博出处、发表时间、发表账号、分词数和分词时间等分词属性。分词结束后对所有微博建立词向量空间,设定权值阈值为6,选取分词作为关键字,对微博的词向量空间进行倒排索引。倒排属性包括微博出处、发表者、发表时间及词数等。 然后,根据热词权值的排序从大到小选取100个热词作为网络节点,同时选择共享文档为网络边,设定共享文档个数为网络边的权值,构造热词网络。为了形成有效的网络社团,突出热词热点,设定连线阈值为40,去掉没有连线的孤立节点和不能反映实际意义的副词节点,得到热点社团相对突出的热词网络,共包含热词35个。 通过观察网络边的权值可知,节点间的连线相对均匀,网络社团的边界相对模糊。通过设定0.75这个相对较高的网络聚类阈值,得到热点聚类网络如图2所示。 图2 聚类后的热点网络 图2中的每种颜色(注:本文为黑白显示,如果要查看原图可与编辑部联系)代表一个聚类。其中3个颜色相同的聚类各自联系紧密,拥有分词较多,能反映出不同微博间谈论话题的共性,被标注为网络热点。 4 热点舆情分析 (1)热点1。如图2右下角所示,可以获得关联紧密的热词有:活动、客户端、青春、小伙伴、机会、球鞋、下载、交易、阅读、故事、坚持等共11个。设热点阈值为3,反向定位得到的热点微博有2条,其热词、热词结构、分类和舆情特点如表1所示。通过表1可知,该处热点与网购具有紧密联系,是男性和女性的共有话题。 表1 热点1的热词结构及舆情特点 热词[]热词结构[]大类[]舆情 机会、球鞋、感谢[]…机会…球鞋…感谢…球鞋…球鞋…球鞋…[]男人[]网购 球鞋、交易、小伙伴[]…球鞋交易…球鞋…交易…小伙伴交易…交易…[]女人[]网购 (2)热点2。如图2左下角所示,联系紧密的热词有:梦想、想要、世界、心情、女人、感谢、有些、支持共8个。设热点阈值为2,得到如表2的热词结构及舆情特点,主要反映男生和女生共同关注的成长和情感类话题。 (3)热点3。在图2的左上角,热词包括:珍惜、男人、给你、参与、老师共5个,其舆情特点反映男人的情感,见表3。 5 结语 基于文本处理和复杂网络聚类,本文提出并实现了网络舆情热点挖掘分析软件系统。系统设计目标是尽可能地开放、实用和高效,但各种软件组件的挂接仍然具有过高的耦合性,需要编程实现。实验结果表明:通过网络聚类发现舆情热点,再进一步分析提取舆情,方案可行,但在具体实验过程中发现需要设定的参数较多,而且反复调试相对繁琐。 本系统在软件松耦合模块化、软件操作自动化,提高舆情热点和舆情分析的精准性、有效性和实用性等方面还有大量的工作要做。 参考文献: [1] NISHA JEBASEELI A, KIRUBAKARAN E. A survey on sentiment analysis of (product) reviews [J]. International Journal of Computer Applications, 2012, 47(11):36-39. [2] 张寿华,刘振鹏.网络舆情热点话题聚类方法研究[J].小型微型计算机系统, 2013, 34(3):471-474. [3] HASEENA RAHMATH P. Opinion mining and sentiment analysis challenges and applications [J]. International Journal of Application or Innovation in Engineering & Management, 2014, 3(5):401-403. [4] CHANDRAKALA S, SINDHU C. Opinion mining and sentiment classification: a survey [J]. ICTACT Journal on Soft Computing, 2012, 3(1):420-427. [5] 谢凤宏,张大为,黄丹,等. 基于复杂网络社团划分的文本聚类方法[J]. 计算机工程与设计,2011,32(3):1059-1061. [6] DAWEI ZHANG, FUDING XIE. Fuzzy analysis of community detection in complex network [J]. Physica A, 2010, 389(22):5319-5327. [7] SALTOM G, WONG A, YANG C S. A vector space model for automatic indexing [J]. Communication of The ACM, 1975, 18(11): 613- 620. (责任编辑:杜能钢) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。