网站首页  词典首页

请输入您要查询的论文:

 

标题 面向大数据的网络舆情异常数据监测与应用研究
范文 夏一雪 袁野 张文才 兰月新


〔摘 要〕[目的/意义]通过对网络舆情数据的动态监测和异常感知,及时预警舆情异常,为政府掌握舆情决策的先动优势提供理论模型和可行思路。[方法/过程]分析大数据环境下激增、波动等网络舆情数据异常现象,明确舆情趋势预测、动态感知异常等异常数据监测机理。基于此,首先运用Gompertz模型进行舆情趋势区间预测,其次定义偏离度进行数据异常评级,并确定预警等级,实现异常数据的及时捕捉和快速预警。[结论/结果]通过实例验证,证明了模型可行性,可以为政府舆情引导程度提供度量依据,也为编制智能化的舆情监测软件提供算法支持。
〔关键词〕大数据;网络舆情;异常数据;监测;预测
DOI:10.3969/j.issn.1008-0821.2018.06.012
〔中图分类号〕C912.6 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0080-06
〔Abstract〕[Purpose/Significance]Through dynamic monitoring and abnormal perception of network public opinion data,it made early warning of abnormal network public opinion and provided theoretical models and practicable methods for grasping the preemptive advantage of network public opinion decision.[Method/Process]It analysed the abnormal phenomena of network public opinion data such as skyrocketing data and trend fluctuation under big data environment,made clear the monitoring mechanism of abnormal data,such as trend prediction,dynamic perception of abnormal data,etc.On this basis,the first step was using Gompertz model to predict the trend of network public opinion theoretical interval.Secondly,the deviation degree was defined for data anomaly rating,and the early warning level was determined to realize the timely capture and rapid early warning of abnormal data.[Result/Conclusion]The feasibility of the model was proved by an example,which could provide the measurement basis for the guidance degree of network public opinion,and also provided the algorithm support for compiling intelligent monitoring software of network public opinion.
〔Key words〕big data;network public opinion;abnormal data;monitoring;prediction
1 現状分析
根据第41次《中国互联网络发展状况统计报告》显示,截至2017年12月,我国手机网民规模达7.53亿,网民中使用手机上网人群的占比由2016年的96.1%提升至97.5%[1]。随着移动宽带互联网的普及,热点舆情以及由其引发的舆情反转、衍生舆情等各类网络舆情事件层出不穷,上海外滩踩踏事故(2014)、南海仲裁(2016)、魏则西事件(2016)等舆情信息数量激增,哈尔滨天价鱼(2016)、李文星事件(2017)、杭州保姆纵火(2017)等舆情的急速反转和剧烈波动,都蕴含着大量的网络舆情数据异常变化情况,加之受网络水军、网络推手、舆论战等影响,导致网络舆情异常现象频出。在舆情监测过程中,相较于常态舆情监测,异常数据监测的决策支持价值更加突出,特别是在数据异常变化初期,及时监测并提前预警,有助于政府掌握舆情决策的先动优势。分析网络舆情数据异常现象,开展异常数据监测研究,是极具理论与实践价值的研究课题。
目前在网络舆情监测理论与方法领域,国内学术界研究成果可以分为以下4个方面:一是监测指标体系的构建,包括运用数据立方体、三角模糊数、层次分析法等方法构建监测指标体系[2-3];二是监测分析系统的架构,包括目标定位、评判依据与运行保障等,主要基于多Agent、基于地理空间大数据等架构监测分析系统[4-5];三是基于监测的预警评估研究,主要运用事件演变动力学建模、语义隶属度模糊推理、直觉模糊推理等开展预警评估[6-7];四是运用人工智能、大数据、云计算等对监测方法和模式进行创新[8-9]。相关研究的关键词共现网络如图1所示。
综合而言,已有研究主要针对网络舆情进行常态监测,也有学者研究负面舆情监测、异常行为识别等问题[10-11],但主要基于统计学理论,进行内容关键词监测,在异常数据感知的动态性、前瞻性等方面仍需进一步深入研究。由此,本文首先描述网络舆情的正常传播规律,基于规律进行预测,通过分析监测数据与预测数据的偏离度来度量网络舆情的数据异常,在大数据环境下,这一监测思路可以更敏锐捕捉到异常数据及其前兆数据,并快速预警,提前响应,为政府掌握舆情决策的先动优势提供理论基础。
2 大数据环境下网络舆情异常监测问题
2.1 大数据环境下网络舆情数据异常现象
大数据环境下,网络舆情演化满足信息生命周期理论,即舆情演化经历潜伏期、扩散期、消退期等阶段,在没有外部力量干扰时,舆情演化过程中信息数量的变化满足一定的变化规律。然而,近些年,在网络水军、网络推手、舆论战等外部因素干扰下,以及舆情信息异化影响下,舆情演化周期内信息数量短时间激增或急速衰减时有发生,舆情演化周期外的衍生舆情或者舆情反转等层出不穷。以Baidu搜索指数为例,魏则西事件搜索量在1天内激增了20余万,南海仲裁舆情则在1天内激增了300余万,大量舆情异常数据中蕴含着有价值的网络情报,需要快速监测异常并通过深度研判感知网络民意。通过案例分析,舆情异常主要包括数量激增异常、衰减异常、波动异常等现象(见图2),其中激增异常、波动异常是最常见的两种异常现象。
大数据环境下,舆情异常破坏了其正常的演化趋势,舆情数据量激增或者波动导致实际舆情演化趋势偏离了理论演化趋势,通过对偏离程度的分析研判,可以挖掘蕴含于数据之中的舆情异常。面对网络舆情数据异常,依托大数据通过对舆情数据构建监测模型,快速感知舆情异常,可以占据治理先动优势,是辅助政府智慧决策、感知民意的重要内容(见图3)。
2.2 大数据环境下网络舆情数据异常监测机理
面对网络舆情异常现象,快速监测异常的实质就是快速度量偏离程度。解决这一问题的关键有两个:第一,舆情事件发生后,根据监测数据构建预测模型,预测未来演化趋势,把握舆情原始演化态势,以图4为例,自舆情开始后,经历少段时间后达到t时刻,应构建舆情演化模型,并根据t时刻之前的数据预测t时刻之后的演化趋势,即图中虚线所示。第二,当新的监测数据出现后,需要通过预测值和新数据构建异常感知模型,研判新数据是否为异常数据,并随着新数据的不断融入,通过数据动态研判,实现动态感知过程,以图4为例,通过t+1时刻预测值和真实值建立模型,研判该点的异常程度,当其为异常数据时,则确定异常等级并进行异常预警,反之,将其融入预测模型用于完善预测趋势,并动态重复这个过程。大数据的核心是预测,基于预测开展异常监测可以缩短监测异常的时间,应用预测模型和异常感知模型可以编制软件,实现舆情异常感知的智能化。大数据环境下,解决以上两个关键问题需要经过搜集、整理舆情监测数据、舆情趋势预测建模、舆情异常感知建模、异常数据预警、决策等核心环节。
3 面向大数据的网络舆情异常数据监测研究
大数据环境下,网络舆情异常数据监测是一个复杂的过程。基于此,本文将这个过程分为预测建模、异常感知建模和异常数据过滤等3个步骤:第一,在舆情监测数据基础上构建建模变量,选择Gompertz模型作为基础模型开展区间预测;第二,异常感知建模在动态输入舆情监测数据后,构建异常感知模型;第三,开展异常程度评级研究,对正常波动数据和异常数据进行区分并动态更新,具体内容见网络舆情异常数据监测过程示意图(见图5)。
3.1 网络舆情数据预测模型研究
大数据的核心是预测,预测的关键是建模。网络舆情传播符合信息生命周期理论,一般要经历发酵、扩散、平息的演化过程,这一点与生态科学中描述生物生长的萌芽、增长、消亡的生长过程演化机理相似,所以,可以借鉴描述生长过程的生长曲线来研究网络舆情演化过程。生态科学中,生长曲线有很多,例如Logistic模型、Gompertz模型、Usher模型、广义Logistic模型、Smith模型、Hallam模型、崔-Lawson模型等[12],考虑到大数据环境下网络舆情扩散周期短、数量多的特性,本文选择Gompertz模型作为基础模型来刻画网络舆情演化过程,并据此开展预测研究。根据网络舆情定义,假设网络舆情信息量为单调递增函数x(t),则Gompertz模型为:
3.1.1 确定模型参数
获取原始网络舆情监测数据后,需要将其进行累加成为建模变量。假设由网络舆情监测数据得到的信息量数据为X={x0,x1,x2,x3,…,xn-1}。通过MATALAB拟合数据验证Gompertz模型用于预测的方法要求数据量大且为完整的一个舆情演化周期数据,然而在实际工作中,网络话题刚刚发生后往往数据量很少,所以很难通过MATLAB软件拟合数据得出预测曲线。基于此,本文研究在少量数据情况下的网络舆情数据的预测方法。
3.1.2 网络舆情趋势区间预测
3.2 网络舆情异常数据感知和评级
大数据环境下,网络舆情在传播过程中,有时会出现小幅度波动,引发这种波动有两种情况:第一种为正常的波动现象;第二种是异常波动的前兆。基于此,本文定义正常区间(A)、观察区间(B)、异常区间(C)来感知网络舆情异常数据,其中正常区间(A)为前文的预测区间,即正常区间为:
其中j=n,n+1,n+2,…。如果预测数据j落入正常区间(A),则将其列为正常数据,并将其融入预测建模数据,更新模型参数,并更新预测未来数据;如果预测数据j落入觀察区间(B),则将其视为观察数据,如果后续数据持续落入观察区域(B),则说明这是舆情异常的前兆数据,在计算偏离度P(j)之后,确定评估等级同时继续使用原来的模型开展预测;如果预测数据j落入异常区间(C),则将其视为异常数据,在计算偏离度P(j)之后,确定异常评估等级,然后继续使用原来的模型开展预测。其中异常评估等级需要结合实际情况根据大量案例数据通过计算预测区间阈值和观察阈值后获得。
限于篇幅,本文根据偏离度P(j)的绝对值将网络舆情异常评估等级分为轻度级、中度级、高度级、严重级4个等级,并分别用蓝、黄、橙、红4个颜色加以区分(见表1),进而确定不同评估级别的预案,为舆情治理决策提供理论支持。
4 应用与验证研究
4.1 数据来源
通过清博舆情监测软件(http://yuqing.gsdata.cn)获取2017年6月至7月间的“京津冀大暴雨”事件网络舆情统计数据,其中微舆情(微信和微博信息量之和)信息量占据60.27%,数据采集时段为2017年6月21日0点至2017年7月7日23点(详细数据见图8)。基于此,本文选取微舆情信息量开展应用与验证研究。
4.2 确定预测模型参数和区间预测范围
将京津冀大暴雨舆情统计数据进行初始化,其中6月21日为舆情起点,即为t=0时刻,然后应用t=0至t=5的数据作为基础历史数据开展数据建模,用t=6到t=16作为验证数据。将t=0至t=5的舆情监测数据进行累加后得到建模变量数据,应用回归分析获得Gompertz模型为:
其中回归分析的可决系数为0.9960,绝对相对误差为3.54%,拟合效果好,可以用于预测未来趋势。在开展预测的同时,取波动阈值α=3.54%,观察阈值k=2,确定观察区间、正常区间的上、下限(见图9)。
4.3 结果分析
依次对t=6到t=16开展异常监测感知测试,验证模型合理性,计算结果见表2。观察结果发现:t=6、t=7、t=8时刻对应的偏离度较小,异常评估结果为正常,所以将新数据依次融入建模数据,重置参数开展持续预测;t=9时,异常评估结果为观察,所以暂停更新数据,持续观察;t=10以后,异常评估结果均为异常,且预警等级由橙色变为持续红色。
对比模型计算结果与实际舆情监测数据(见图10),图中正常区间、观察区间范围是由t=0至t=8的数据经过建模得到。观察发现:实际舆情监测数据(未累加)曲线上,t=2到t=8曲线持续单调递减,舆情热度逐步回落,但t=9时,有微微向上波动的趋势,这一点被模型及时捕捉到,将其列为观察数据,而在峰值t=12来临之前,连续在t=10、t=11处及时进行舆情异常红色预警,模型计算结果和舆情实际演化结果基本吻合。为进一步提升舆情异常感知的及时性,应将监测数据由按天统计变为按小时统计,以第一个红色异常点t=10为例,按天预警则只能在当天晚上24点以后进行,而应用按小时统计数据之后,可以将预警时间提前4~5个小时,这段时间在治理网络舆情时是极为重要的。如果将本文构建的预测模型和异常监测机理编制成监测软件,随着动态融入新数据,将实现监测智能化并节省人力资源,为辅助网络舆情治理决策提供及时的舆情异常等情报信息。
5 总结与展望
随着新媒体的发展,网络舆情态势呈现出数量多、产生速度快、信息类型多、蕴含大量民意等大数据特征。但网络舆情受网络水军、网络推手等主体的诸多干扰,以及信息异化等信息层面的影响,导致舆情异常现象时有发生。
面对网络舆情异常现象,如何智慧应急、科学治理,是政府舆情决策的重要内容,也是更深入把握网络舆情演化时、度、效的必经之路。基于此,本文基于动态预测模型尝试解决舆情异常的感知问题,通过理论研究和实证研究证明了模型的可行性,为舆情引导程度提供度量依据,也为编制智能化的舆情监测软件提供算法支持。然而限于篇幅,本文仅仅解决了部分机理性、宏观性的异常监测问题,而对于舆论战、网络谣言、多个舆情竞争等复杂环境下的异常监测以及预测还有待进一步研究。
参考文献
[1]中国互联网络信息中心.第41次中国互联网络发展状况统计报告[R/OL].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201801/t20180131_70190.htm,2018-02-06.
[2]宋余超,陈福集.基于数据立方体的网络舆情监测指标体系构建[J].情报科学,2016,34(6):31-36.
[3]兰月新,董希琳,陈成鑫.地方政府应对网络舆情能力评估和危机预警研究[J].现代情报,2012,32(5):8-12.
[4]于卫红.基于多Agent的高校网络舆情监测与分析系统[J].现代情报,2017,37(10):53-57.
[5]杨宗亮,张玉茜,李建飞.一种基于地理空间大数据的网络舆情监测软件架构[J].测绘通报,2017,(3):96-100.
[6]徐勇.网络舆情事件演变的动力学建模及预警监测[J].现代情报,2016,36(4):14-19,56.
[7]张艳丰,李贺,彭丽徽,等.基于语义隶属度模糊推理的网络舆情监测预警实证研究[J].情报理论与实践,2017,40(9):82-89.
[8]鄢睿.人工智能视域下网络舆情监测的变革之道[J].传媒,2017,(20):51-53.
[9]储节旺,朱玲玲.基于大数据分析的突发事件網络舆情预警研究[J].情报理论与实践,2017,40(8):61-66.
[10]孙飞显,程世辉,倪天林,等.基于新浪微博的负面网络舆情监测研究——针对政府的负面网络舆情研究系列之一[J].情报杂志,2015,34(4):81-84,115.
[11]曹树金,郑凌,陈忆金.网络舆情突发异常识别及关键算法研究[J].图书情报知识,2012,(1):43-51.
[12]Fred Brauer,Carlos Castillo-Chavez.生物数学——种群生物学与传染病中的数学模型[M].金成桴,译.北京:清华大学出版社,2013.
(责任编辑:孙国雷)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/10 23:12:01