网络舆情监测及指标建设
摘 要:介绍网络舆情监测的来源范围,提出网络监测指标的构建原则与监测指标体系,分析了其中的问题与实现方法,并探讨了舆情工作中的一些具体做法,以期推动网络舆情监测工作的研究与实践。
关键词:网络舆情;舆情监测;指标体系
有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。
1 网络舆情监测来源
网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:
(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体发布的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与发布者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站发布传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。
2 监测指标构建原则
网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。
3 监测指标体系
(1)主题聚合
按照内容相关度准确关联聚合舆情信息,是准确把握舆情整体走向、媒体与网民言论态度的前提。主题聚合即指依据信息内容实现信息的分类与聚类,是舆情话题发现与话题追踪的基本支撑。从技术实现角度,主题聚合涉及信息内容分析,大多都是基于词语匹配的聚分类方法实现舆情话题发现与追踪等主题聚合功能。然而,文本中存在大量词形不同,但意义关联的近义词、同义词与相关词,内容相同或相近的新闻、帖文会出现在不同的页面与帖文。舆情信息中包括大量短文本,特别是网民回帖评论,存在明显的语义特征稀疏问题。分类体系只限于关键词本身,不具备主题词的语义描述,容易影响聚分类的准确率与召回率,主题聚合指数的性能会受到明显限制。一个解决方法是构建语义知识,并扩展语义计算模型提高分析的准确程度;利用当前的最新技术,比如深度学习方法,通过构建具有多隐层的学习模型,以海量舆情数据作为训练集,学习扩展语义特征,提升内容分析的准确程度。
(2)热度
舆情热度衡量舆情被关注的程度与传播范围。舆情热度主要包括舆情关注度、传播覆盖度、舆情权威度等二级指标。一些研究提出地域关注度指标[3],但网民IP地址对于第三方采集系统是难以大范围直接获取的。其中,舆情关注度采用主题内容下舆情信息的关注数量衡量,具体是篇目、浏览、回复数量的综合加权值,一般以线性累加和公式计算。该指标主要从网民角度,衡量舆情内容的被关注程度和感兴趣情况。覆盖度是指主题信息在采集来源站点中出现的比例。舆情信息来源站点是经过筛选的,代表舆情在整个监测范围内的传播程度。由于信息来源规模与特点不同,所以需要对来源类型预设参数再进行比例计算。权威度指舆情信息的来源权威度,比如人民网的权威度较高而小型商业新闻网站的权威度低,知名公众人物的博客权威度较高。权威度通过预设参数区分主流媒体、论坛、博客、微信公众号的来源指标。最后,将以上二级指标综合加权,进行标准化处理得到主题热度。
(3)内容倾向
内容倾向是信息内容中包含的观点态度,内容倾向指标用于统计舆情信息中的各类情感倾向类型数量。倾向类型主要分为两类:正面(褒、支持)、负面(贬、反对)。文本中的句子不仅包括情感词,而且包含一些具有较强情感色彩的形容词、程度副词、感叹词、否定词等影响判断情感倾向的因素。区分舆情的倾向性,需要构建情感词库作为智力支撑,才能提高情感判断的范围与准确性。比如鄙视、侵犯属于负面动词,而拥护、赞扬属于正面动词,安全、漂亮属于正面形容词。“鄙视这种言论”,“这种装置不安全”,可以依据其中的动词形容词判断情感倾向。
传统手工构建的情感词典覆盖面有限,难以满足实际运用。考虑到技术实施的快速性、易用性以及语义问题。借助已有情感词典构建基本情感词库,运用Word2Vector工具将语料库(比如已采集舆情信息、维基百科知识)转换为词向量,计算其他词语与已知情感词的语义距离,构建情感词特征空间[4]。通过扩展情感词库,判断广泛的情感倾向。舆情信息中的回帖或评论大多由较短句构成,其中句子s中的情感词表示为,s的情感类型。其中,表示词wi的倾向类型。如果wi前面否定词个数是奇数,则反置wi的极性倾向。将倾向性判断问题转化为文本分类问题,这样可以有效判断各种长短文本的情感倾向,得到主题信息的情感态度频率分布与内容倾向趋势。
(4)预警
网络舆情表现为海量的网络信息,舆情变化程度对应相应数据的特征与趋势。所以,监测分析数据变化可以描述舆情的影响趋势,对网络舆情进行危机预警。当前,网络舆情事件处理存在应急准备不足,报送时间不及时,突发事件响应速度慢等不足。一个重要原因是网络舆情预警能力相对较弱。舆情监测需要增强舆情信息的分析和预测,将工作重点从单纯的收集有效数据,向深入研判与预测舆情的趋势方向拓展。常用的思路与方法是:预设时间窗口,获取主题信息数量,内容敏感程度,负面倾向性评价数量比例,传播范围等基本特征与指标。计算历史窗口下的信息增长率、增长梯度等变化程度,评估舆情信息的数据变化趋势并制定预警级别。进而,以数据挖掘为核心技术,应用不同的数据模型方法,比如传统的多元回归、贝叶斯网络、决策树、支撑向量机等预测舆情发展趋势。如果大于某阈值或符合预定模式,认为需要预警,即从海量网络数据中预判出潜在的危机隐患。
参考文献
[1] 王铁套,王国营,陈越. 基于模糊综合评价法的网络舆情预警模型[J]. 情报杂志,2012, 31(6):47-51.
[2] IRI网络口碑研究咨询机构介绍及研究方法[EB/OL]. http://www.baike.com/wiki/网络舆情指数体系.
[3] 李雯静,许鑫,陈正权. 网络舆情指标体系设计与分析[J]. 情报科学,2009 (7):986-991.
[4] 黄仁,张卫. 基于word2vec的互联网商品评论情感倾向研究[J]. 计算机科学,2016(6):387-389.
作者简介
刘晓亮(1979-),男,陕西西安人,讲师,博士,南京政治学院信息管理系政治工作信息化教研室,研究方向:数据挖掘、舆情分析。
关键词:网络舆情;舆情监测;指标体系
有效加强网络舆情监测分析,才能实时掌握网络舆情动态。网络舆情监测分析工作重要环节包括采集、整理和分析舆情信息,需要构建一定的指标体系,评价揭示网络舆情信息的特征与变化规律。指标是在评价某些研究对象所确定的依据和标准,包括指标名称和数值。网络舆情指标体系是由相互联系、相互补充的指标组成的统一整体,用于反映网络舆情的综合状况,揭示其中的各个方面。本文首先介绍舆情监测的来源范围,接着阐述网络舆情监测指标的构建原则与内容,提出从主题汇聚、热度、内容倾向性、预警等方面构建网络舆情监测指标体系。
1 网络舆情监测来源
网络信息的来源不断趋于多样化,从传统的新闻网站、博客论坛,发展到微博、微信等社会化网络应用[2]。准确把握舆情态势,防止监测分析片面化,需要增加信息来源范围。然而,舆情监测难以捕获所有网络信息,网络舆情的来源选择就显得非常重要。在网络上,表现为围绕新闻、事件、问题与个案等产生的网络信息。网络舆情的信息来源选择主要包括:
(1)主流媒体新闻网站。网络新闻是民众获取信息的重要来源,特别是主流媒体发布的新闻。重大性与突发性舆情都会及时出现在主流媒体,聚集大量网民跟帖评论,是舆情的重要来源与传播源头。(2)论坛。在网络社区中,网民会发出具有个人观点看法的各类信息。在舆情监测工作中,接触到的近半信息都来自于各种论坛。(3)博客。博客是个人分享、交流思想知识的空间,会对热点和新闻事件、特定话题和现象发表个人评论,是舆情信息的重要载体之一。博客数量众多,主要采集专家、知名人物的博客及网民回复。(4)视频网站。视频网站是社会生活和事件的记录与发布者,并且大多视频网站提供给留言功能,比如优酷、爱奇艺等。视频信息鲜活,网民会分享观感看法与态度,视频标题与描述信息为舆情数据的整理分析提供了可能和便利。以往工作容易忽视这类舆情载体,而实际中一些舆情事件会较早通过视频网站发布传播。舆情监测工作需要重视视频信息的价值,及时采集抽取其中的有价值信息。(5)社交媒体。在社交媒体应用上,国内主要是微博和微信。微博相对数据开放,数据量巨大,很难在较短的轮询时间窗口完成采集遍历。所以,与传统博客类似,选择其中的部分微博。微信主要限制在个人通讯范畴,主要将微信公众号作为舆情信息来源。另外,一些网站由于赢利、点击量等原因,有意甚至恶意炒作负面信息。所以,要区分标识这类信息来源。同时,在采集器设置上进行一定限制和过滤,避免采集处理过多无效无关数据。
2 监测指标构建原则
网络舆情指标体系的构建原则应包括:(1)主题性。具体的舆情工作具有明确的服务对象,其舆情内容具有鲜明的主题、行业或领域性质。舆情监测的目的是及时识别问题与风险。因此,舆情指标应对各类信息做出灵敏响应。(2)可靠性。指标的选取要有相对可靠性与稳定性,确保指标的使用在时间上有延续性[1]。(3)系统性。网络舆情监测分析工作是一项十分复杂的过程,涉及内容众多。指标体系一定要尽量全面完整形成整体,覆盖舆情工作流程,从多层次多角度揭示网络舆情特征。(4)实用性。舆情监测指标必须反映舆情演化趋势与客观规律,符合网络舆情工作需求与相关流程,便于分析和引导舆情。同时,指标的计算分析结果要尽量便于理解与解释说明,为舆情简报等工作提供必备的数据支持。
3 监测指标体系
(1)主题聚合
按照内容相关度准确关联聚合舆情信息,是准确把握舆情整体走向、媒体与网民言论态度的前提。主题聚合即指依据信息内容实现信息的分类与聚类,是舆情话题发现与话题追踪的基本支撑。从技术实现角度,主题聚合涉及信息内容分析,大多都是基于词语匹配的聚分类方法实现舆情话题发现与追踪等主题聚合功能。然而,文本中存在大量词形不同,但意义关联的近义词、同义词与相关词,内容相同或相近的新闻、帖文会出现在不同的页面与帖文。舆情信息中包括大量短文本,特别是网民回帖评论,存在明显的语义特征稀疏问题。分类体系只限于关键词本身,不具备主题词的语义描述,容易影响聚分类的准确率与召回率,主题聚合指数的性能会受到明显限制。一个解决方法是构建语义知识,并扩展语义计算模型提高分析的准确程度;利用当前的最新技术,比如深度学习方法,通过构建具有多隐层的学习模型,以海量舆情数据作为训练集,学习扩展语义特征,提升内容分析的准确程度。
(2)热度
舆情热度衡量舆情被关注的程度与传播范围。舆情热度主要包括舆情关注度、传播覆盖度、舆情权威度等二级指标。一些研究提出地域关注度指标[3],但网民IP地址对于第三方采集系统是难以大范围直接获取的。其中,舆情关注度采用主题内容下舆情信息的关注数量衡量,具体是篇目、浏览、回复数量的综合加权值,一般以线性累加和公式计算。该指标主要从网民角度,衡量舆情内容的被关注程度和感兴趣情况。覆盖度是指主题信息在采集来源站点中出现的比例。舆情信息来源站点是经过筛选的,代表舆情在整个监测范围内的传播程度。由于信息来源规模与特点不同,所以需要对来源类型预设参数再进行比例计算。权威度指舆情信息的来源权威度,比如人民网的权威度较高而小型商业新闻网站的权威度低,知名公众人物的博客权威度较高。权威度通过预设参数区分主流媒体、论坛、博客、微信公众号的来源指标。最后,将以上二级指标综合加权,进行标准化处理得到主题热度。
(3)内容倾向
内容倾向是信息内容中包含的观点态度,内容倾向指标用于统计舆情信息中的各类情感倾向类型数量。倾向类型主要分为两类:正面(褒、支持)、负面(贬、反对)。文本中的句子不仅包括情感词,而且包含一些具有较强情感色彩的形容词、程度副词、感叹词、否定词等影响判断情感倾向的因素。区分舆情的倾向性,需要构建情感词库作为智力支撑,才能提高情感判断的范围与准确性。比如鄙视、侵犯属于负面动词,而拥护、赞扬属于正面动词,安全、漂亮属于正面形容词。“鄙视这种言论”,“这种装置不安全”,可以依据其中的动词形容词判断情感倾向。
传统手工构建的情感词典覆盖面有限,难以满足实际运用。考虑到技术实施的快速性、易用性以及语义问题。借助已有情感词典构建基本情感词库,运用Word2Vector工具将语料库(比如已采集舆情信息、维基百科知识)转换为词向量,计算其他词语与已知情感词的语义距离,构建情感词特征空间[4]。通过扩展情感词库,判断广泛的情感倾向。舆情信息中的回帖或评论大多由较短句构成,其中句子s中的情感词表示为,s的情感类型。其中,表示词wi的倾向类型。如果wi前面否定词个数是奇数,则反置wi的极性倾向。将倾向性判断问题转化为文本分类问题,这样可以有效判断各种长短文本的情感倾向,得到主题信息的情感态度频率分布与内容倾向趋势。
(4)预警
网络舆情表现为海量的网络信息,舆情变化程度对应相应数据的特征与趋势。所以,监测分析数据变化可以描述舆情的影响趋势,对网络舆情进行危机预警。当前,网络舆情事件处理存在应急准备不足,报送时间不及时,突发事件响应速度慢等不足。一个重要原因是网络舆情预警能力相对较弱。舆情监测需要增强舆情信息的分析和预测,将工作重点从单纯的收集有效数据,向深入研判与预测舆情的趋势方向拓展。常用的思路与方法是:预设时间窗口,获取主题信息数量,内容敏感程度,负面倾向性评价数量比例,传播范围等基本特征与指标。计算历史窗口下的信息增长率、增长梯度等变化程度,评估舆情信息的数据变化趋势并制定预警级别。进而,以数据挖掘为核心技术,应用不同的数据模型方法,比如传统的多元回归、贝叶斯网络、决策树、支撑向量机等预测舆情发展趋势。如果大于某阈值或符合预定模式,认为需要预警,即从海量网络数据中预判出潜在的危机隐患。
参考文献
[1] 王铁套,王国营,陈越. 基于模糊综合评价法的网络舆情预警模型[J]. 情报杂志,2012, 31(6):47-51.
[2] IRI网络口碑研究咨询机构介绍及研究方法[EB/OL]. http://www.baike.com/wiki/网络舆情指数体系.
[3] 李雯静,许鑫,陈正权. 网络舆情指标体系设计与分析[J]. 情报科学,2009 (7):986-991.
[4] 黄仁,张卫. 基于word2vec的互联网商品评论情感倾向研究[J]. 计算机科学,2016(6):387-389.
作者简介
刘晓亮(1979-),男,陕西西安人,讲师,博士,南京政治学院信息管理系政治工作信息化教研室,研究方向:数据挖掘、舆情分析。