网站首页  词典首页

请输入您要查询的论文:

 

标题 微博数据下突发事件在线检测的研究
范文

    方中纯 宋平

    

    摘要:为了改善现有突发检测的不足,提出一种融合词特征和Strom框架的突发事件在线检测模型。在基于词特征的检测模型的基础上,使用Strom分布式框架,结合层次聚类算法,在线检测微博事件中的突发事件。实验结果表明进行检索评估测试时取得了较好结果,很好的实现在线检测。

    关键词:突发事件;Strom框架;层次聚类;在线检测

    中图分类号:TP391 文献标识码:A

    文章编号:1009-3044(2020)20-0211-02

    Research on Online Detection of Emergency Events under Weibo Data Stream

    FANG Zhong-chun1, Song Ping2

    (1.Engineering and Training Center.Inner Mongolia University of Science and Technology, Baotou 014010. China; 2. InformationEngineering School, Inner Mongolia University of Science and Technology, Baotou 014010, China)

    Abstract : In order to improve the shortcomings of the existing burst detection,an online event detection model comhining word fea-tures and Strom framework is proposed.On the basis of the word feature-based detection model,the Strom distributed framework iscombined with a hierarchical clustering algorithm to detect unexpected events in Weibo events online.The experimental resultsshow that good results are obtained during the retrieval evaluation test.and the online detection is well achieved.

    Key words : emergencies; storm framework; hierarchical clustering; online detection

    1引言

    微博作为分享简短实时信息的社交网络平台,在对突发事件的报道上要远快于传统媒体的正规报道,消息的传播也更快速,更能形成热门话题,但是在高效传播的同时,也带来了各种形式的数据,如何及时准确地检测出微博中突发事件,进行必要舆情管控与社会引导,一直以来是研究的热点。

    针对微博突发事件检测的研究方法大致分为两类:(1)基于突发词特征的方法,文献[1]利用多种词特征提取时间窗内的突发词,基于层次聚类产生话题。该方法效率较高,但在突发检测的精度上欠佳;(2)基于文本的方法,文献[2]引用LDA模型,与时间序列结合,弥补LDA模型在进行短文本检测时的不足,但是时间复杂度较高,数量的选取也受人为因素的干扰。

    基于以上分析,本文利用Strom分布式框架,参考文献[3]提出的情感过滤对单位时间内的数据流进行预处理,通过词特征的突发检测模型得到词集,构建相似矩阵,使用层次聚类算法,生成簇集,得到突发话题簇,完成在线检测。

    2在线检测模型的实现

    2.1数据预处理

    微博数据中充斥着大量如传销、广告等垃圾信息。此类信息会影响事件检测的效率。采用jieba分词进行切词,去停用词和预处理操作。

    1)参考文献[4]中的预处理规则,去除包含词汇少于3个的微博。

    2)去除微博中的URL链接,表情符。

    3)词性过滤,参照词性表,过滤掉除名词,动词以外的词性。

    4)参照SnowNLP情感词典,进行情感过滤,筛选负面情绪的文本进行突发词检测。

    2.2突发词检测

    微博文本的突发事的出现总是伴随着一些特性,基于突发词的特征人手,本文从以下三方面出发,作为衡量突发词集标准。

    1)词频热度

    即在一个时间窗口内词频个数,若一个词汇的出现次数较多,在一定程度上可以理解为在该时间窗口内出现了该词相关的突发事件。

    2)词频增长率

    作为突发词检测中最明显的特征,借助相邻两个时间窗口,计算词频增长。同时为了避免事件爆发期间相邻时间窗的十扰,影响对该类突发事件的追踪,引入历史时间窗口,计算公式如下:

    其中,Fi,k表示在当前k时间窗口下词汇i的增长率,Ni,k表示词汇i在窗口k中出现的频率,Ni,k表示在n个时间窗口下词汇i出现的平均频率[5]。

    3)词频权重

    对于微短文本且相关报道集中爆发的特点,传统TF-IDF方法,会使一些具有代表突发事件的词语赋予较低的权值。因此,对TF-IDF方法进行改进,计算公式如下:

    其中,α是词频权重的初始值,Nmax,k是时间窗口k下最大词频数。

    将上述三种特征进行归一化计算,计算公式如下:

    Bi,k=Hi,k+Fi,k+Ci,k

    (3)

    其中,Bi,k表示词语i在时间窗口k下的突發程度,Hi,k表示词语i在时间窗口k下的词频热度。

    2.3相似度矩阵构建

    对提取的突发词集进行共词分析。共词即词汇对同时出现在同一文本。统计词汇共现情况,能够反映关键词之间的关联程度,相较通过语义词典进行相似词汇对识别,更适用于微博短文本的突发检测。对形成的共词矩阵,采用Jaccard系数,形成相似矩阵,计算公式如下:

    其中,Dki为在k时间窗口下,包含词汇i的相关文本集合。

    2.4突发词聚类

    本文采用凝聚式层次聚类。参考对于一个事件的描述,离不开何地,何事,何人等三要素说明,过滤掉少于3个词的类簇,剩下的就是本时间窗口的突发词簇。

    算法步骤如下所示:

    1)基于所求得的相似度矩阵,找出距离最小的两个类簇

    2)合并最接近的两个簇

    3)更新邻近度矩阵,以反映新的簇与原来的簇之间的邻近性

    4)直到簇之间的距离均大于某一值,输出结果并结束。

    2.5基于Strom的分布式框架设计

    本文利用Strom框架,对突发事件检测模型做分布式扩展,提高检测模型的效率。其拓扑图如下所示。

    PreSpout:接收数据源,通过随机分组方式将数据源分配给计算节点Bolt。

    CleanBolt:数据清理工作,具体参照微博数据预处理模块。

    CalcuBot:突发词检测操作,使用aIIGrouping分组方式将处理后的结果全部分配给TestBolt。

    TestBolt:相似度矩阵的计算和层次聚类的操作,最终返回符合条件的簇集,完成对突发事件的在线检测。

    3实验与分析

    3.1实验数据及评价标准

    本文借助微博的接口,采集了2020年1月8号和9号约40万条数据,其中包含用户ID,时间,博文内容等。以一小时作为单位时间窗口,选出突发度排名前100的突发词组成该时间段内的突发词集。

    通过访问国家突发事件信息网和中国军网,对国内外突发事件进行统计,详见表1。

    评价标准参考信息检索评估中使用的正确率P,召回率R和F1值。其公式如下所示:

    x1表示该框架检测出来的突发事件与表1相符的事件数量,x2表示检测出表1不存在的突发事件的数量,X3表示未检测出表1的相关事件的数量。

    3.2实验结果及分析

    通过本实验框架检测出来的突发事件与媒体突发事件报道进行比对,与已有离线检测方法1:通过词频、词频增长率和词突发度进行检测,实验结果如图2所示。

    从结果中看出,本文提出在线检测框架,在保证召回率的同时,准确率和F1值均得到了提升,同时还检测出媒体未报到,如:“女子投诉快递员遭暴打”这些民生类网络突发事件。在在线突发事件检测上有著良好的效果。

    4结语

    本文提出了一种融合Strm分布式框架的突发事件检测方法,在单位时间窗口内的突发事件测试中取得了良好的结果。但是本文采用的聚类算法时间复杂度高,检测结果耗时较大,因此后续会研究如何降低在线聚类算法的耗时。同时缩小时间窗口,在实时性上做出研究。

    参考文献:

    [1]丁晟春,龚思兰,李红梅,基于突发主题词和凝聚式层次聚类的微博突发事件检测研究[J].现代图书情报技术,2016,32(7-8):12-20.

    [2] CUI L,ZHANC X.ZHOU X,et aI.Topicalevent detection onTwitter[C]//Proceedings of the 2016 Australasian DatabaseConference.LNCS9877.Berlin:Springer,2016,257-268.

    [3]费绍栋,杨玉珍,刘培玉,等.融合情感过滤的突发事件检测方法[J],计算机应用,2015,35(5):1320-1323.

    [4]郭趾秀,吕学强,李卓基.基于突发词聚类的微博突发事件检测方法[J].计算机应用,2014,34(2);486-490.

    [5]杨书宁,基于微博的突发事件网络舆情监测方法研究[D].大连:大连理工大学,2014.

    【通联编辑:唐一东】

    收稿日期:2020-03-25

    作者简介:方中纯(1971-),男,四川遂宁人,内蒙古科技大学副教授,博士,主要研究方向为人工智能。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 2:32:46