大数据环境下网络舆情管理方法研究

孙丽杰+李春华



摘 要:随着互联网技术的快速发展及其广泛的应用,网络舆论信息的产生体量、传播速度和影响范围等方面都发生了巨大变化。这些变化要求舆情管理工作者在舆情管理理念、管理方法等方面必须与时俱进。大数据既是一种新技术,也是一种新方法,它侧重于信息挖掘和预测。将大数据运用到网络舆情管理工作之中,必将对舆情管理产生重要作用。在大数据环境下,网络舆情的管理方法也必将发生变革与创新。探讨大数据环境下网络舆情分析方法,以大数据为背景和前提创新网络舆情管理方法,总结大数据下舆情管理理念、视角、方式和方法等方面的变革与创新的思路,具有重要意义。
关键词:网络舆情;大数据;管理方法;变革与创新
DOI:10.15938/j.cnki.iper.2017.01.025
中图分类号: G641文献标识码:A文章编号:1672-9749(2017)01-0124-06
据《第37次中国互联网络发展状况统计报告》(由中国互联网络信息中心(简称:CNNIC)在2016年1月发布)显示,截至2015年12月,中国网民规模达6.88亿,全年新增网民3951万人。互联网普及率为50.3%,中国手机网民规模达6.20亿,手机上网使用率为90.1%[1]。随着移动互联网(Mobile Internet)、社交网络(Social Networking)、电子商务(Electronic Commerce)等的迅速发展,互联网的边界和应用范围有了极大扩展,各种信息和数据极具增多,并正在迅速膨胀变大。
网民们经常通过互联网表达意愿、观点,讨论各种话题,以表达自己的思想观点和诉求。互联网既是一个收纳器,聚集网民思想动态表达、文化和社会生活信息;又是一个扩音器,传播大众的社会舆论。在社交媒体时代,人们通过互联网平台表达社情民意,体现自己的意愿、态度和评论观点。舆情作为社会舆论的一个风向标,开展舆情分析主要是针对民众态度、观点的收集整理,分析出民众相关的意见倾向,客观体现舆情动态。
作为世界上网民数量最多、互联网访问量最大的国家,有效地分析网络舆情,对于政府,媒体、大型企事业单位都有着非常重要的意义。从政府的角度,有效的舆情管理有利于政府了解公众态度和诉求,有助于提升政府的政务管理和构建良好的社会和网络环境;从企业的角度,有效的舆情管理有利于企业掌握用户和大众对产品质量、产品功能与服务的评价及客户特征信息,更好地提供个性化产品与服务,实现利润增长,更有利于企业了解用户和大众对企业社会形象的反馈和认知,提升企业品牌知名度和社会声誉;从媒体的角度,有效的舆情管理能够突破传统信息搜集和发布渠道,更能够通过对公众舆论深入分析,提升新闻效果,实现新闻价值增值。因此,社会各界都非常重视网络舆情分析,并不断创新舆情的分析和管理的方式和方法,都是想最大化舆情的价值。
一、大数据及网络舆情的相关定义及特点
1.大数据的定义及特点
随着人们对大数据的研究和理解的不断深入,大数据已不仅仅是一个技术方面的名词了。而今,大数据相关的理论无论从内涵还是外延上,都在不断丰富和充实。关于大数据的定义,不同的机构和学者从不同的角度给出略有差异的定义:如高德纳咨询公司(2013)提出,大数据是指具有更强的洞察力和流程优化能力的海量、多样化的信息[2]。维基百科对大数据的定义是“一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集”。Gartner对大数据的定义:“大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量高增长率和多样化的信息资产” [3]。
IDC市场研究公司2012年提出,“大数据”是为了从大容量的、不同类型的数据中获取有价值的信息而设计的新型架构和技术[2],并对大数据的采用三步法进行了界定,如图1所示。首先,从数据源场景方面,可以有三种情况,或者说需要具备三种情况至少满足一种,即大数据的容量大于等于100TB或数据源于超高速的数据流(Data Streaming),或数据产生的年增速大于60%;其次,必须部署在可动态适应的基础设施(dynamically adaptable infrastructure)上。这里的基础设施既可以是传统的scale-up架构,也可以是水平扩展架构(scale-out infrastructure);最后,必须有两个以上的数据源或数据格式,或者高速流数据源(如点击流或机器产生的数据流)。有了以上三个步骤的界定,才可以形成大数据。IDC指出“大数据技術描述了一种新一代技术和架构,以非常经济的方式,以高速的捕获、发现和分析技术,从各种超大规模的数据中提取价值” [2]。
尽管对大数据的定义角度各有不同,但大数据的核心本质和特征的表述和定义相对比较统一,均认为大数据与传统意义数据具有本质区别。较传统数据相比,在数据基础上,大数据更倾向于全体数据而非抽样;在分析方法上,更强调相关分析而非因果分析;在分析效果上,追求的是效率而非绝对精确和在数据规模上强调相对数据而不是绝对数据。
在数据和信息的规模/体量方面、在内容形式和数据结构方面具有复杂性/变化频度多样、在产生速度方面及价值密度等四个方面都极大地超越了传统的数据形态,具有4V特征:
第一,数据规模大(Volume)
第二,数据种类多样(Variety)
第三,数据处理速度快(Velocity)
第四,数据价值密度高(Value)
如图2所示:大数据的4V特征。
具体而言,一是数据规模大( Volume):从容量角度,大数据具有数据容量大,“容量”或“体量”,从 TB→PB→EB级,每级都是按照进率1024(2的十次方)计算,这足以说明大数据规模之庞大。二是数据种类多样(Variety):结构化数据、非结构化数据以及半结构化数据,Web数据、文字、语音音频数据、图片图像数据、视频数据、模拟信号等数据都体现了数据的多样性。三是速数据处理速度快(Velocity):对数据访问、处理、交付等速度的要求快,而且数据产生速度也非常之快;四是价值(Value):大数据的核心价值在于资源优化配置,通过搜集海量数据,进而展开全量数据挖掘,分析数据背后的相关性,开展预测分析,获得数据的应用价值。
这些特性使得大数据与传统数据区别开来,强调了大数据是具有结构松散性、形式复杂性和有利用价值的数据信息资源[3]。
2.网络舆情的定义与特点
“舆情(Public Opinion)”翻译为“民众或公众的意愿、意见或观点”。根据百度百科:舆情是“舆论情况”的简称,是指在一定的社会空间内,围绕中介性社会事件的发生、发展和变化,作为主体的民众對作为客体的社会管理者、企业、个人及其他各类组织及其政治、社会、道德等方面的取向产生和持有的社会态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和。
有学者从社会学视域考察舆情的定义,认为舆情是指社会各阶层民众对社会现象或事件所持有的情绪、态度、观点、看法、意见和行为倾向等[4]。网络舆情则是社会总体舆情的一个组成部分,是以网络为载体存在,以网络传播方式汇聚、形成和表达的舆情,是在互联网上的民众情绪、态度和意见汇聚的总和[5]。
网络舆情的信息来源主要有:网络新闻(如:搜狐、新浪、人民网,或以RSS为基础聚合类新闻,如头条等),论坛贴吧(如:BBS,百度贴吧,天涯,西祠胡同等),新闻评论,社会化媒体社交网络(即时通讯工具:如:聊天室、QQ、微信、微博、博客等),搜索引擎(如:百度,google等),网络发起线上活动、网络调查、电子邮件等。
通常我们把网络舆情的基本特征概括为自由性与可控性、互动性与即时性、丰富性与多样性、隐匿性与外显性、情绪化与非理性、个体化与群体极化性[6]。如图3所示:网络舆情的特征
3.大数据是网络舆情管理的有效方式之一
大数据的目的在于发现新的知识与洞察并进行科学决策。大数据与网络舆情具有非常相似的特征。从这点上可见,利用大数据的手段管理网络舆情是网络舆情管理的有效方式之一。首先,大数据能够全方位记录民意,完整展现社会舆情,大数据体量巨大,从TB级到PB乃至ZB级别,能够完全、完整的记录社会民众的社情民意;其次,大数据的特点是挖掘数据背后的相关联性,因此,大数据能精准体现舆情背后的事件、相关人员以及读者等要素内在逻辑和社会关联;最后,大数据具有很强的预测能力,通过分析事件的读者特征(群体肖像刻画)、被关注程度/热度、传播速度、传播范围、发展趋势、影响程度和网民情绪变化等,也可以针对某个观点的深度研究,从而预测舆情走向,帮助决策者进行决策和判断。因此,大数据技术为网络舆情的预测提供了重要的技术、理论支撑和保证,也成为舆情研究关键技术的支撑和核心概念。
二、基于大数据技术网络舆情管理的一般步骤与方法
网络舆情的管理模型主要分为:信息采集、信息预处理、舆情分析、舆情报告四个步骤。如图4所示:大数据管理模块及流程示意。
1.信息采集
信息采集当前常用方式是网络爬虫技术。在网络爬虫的爬行策略中,应用最为基础的是深度优先遍历策略、广度优先遍历策略。对于信息抓取过程,要求信息抓取的覆盖范围要全面。高速发展的信息高速路使得网络信息数据容量不断增大、信息和数据的类型更加丰富和复杂、网页数量不断增多,这对舆情信息抓取的效率和全面性提出了更高的要求。
大数据网络舆情信息搜集改变了传统网络舆情信息的搜索采集方式,采用定向站点信息抓取辅以全面的实时监控、聚合内容(RSS)、社交网站信息搜集和摘要搜集等搜集技术,与传统人工监测采集相结合的方式进行,抓取效率和覆盖范围都有突破性进展。
数据监测要全面和实时,要做到精细采集信息数据。笔者整理了较为常用的监测范围和基本监测指标,如表1所示。
2.信息处理
信息处理主要包括数据清洗(Data Cleaning)、信息提取、文本分类等。信息处理的主要任务是将采集的各种信息转化成格式化文本存入数据库。
网络舆情在大数据环境中流动和变化速度非常快,因此,在信息处理部分,要求信息处理的时效性。
3.舆情挖掘与分析
大数据分析就是对海量数据进行分析、梳理和加工,获得具有价值的产品(Product)和服务(Service)或深刻洞见(Insight)的数据及处理方法。数据分析的主要技术手段是采用数据挖掘(Data Mining),数据挖掘又称数据库中的知识发现,即从数据库的大量数据中揭示出隐含的、前所未有的并具有潜在价值的信息的价值聚合、提炼的过程[7]。
舆情分析的技术方法主要有文本分类、聚类分析(不预先设定数据归类类目,完全根据数据本身性质将数据聚合成不同类别)、热点发现(利用关键词过滤、语义分析、数值统计识别热点和敏感话题)、话题识别、主题检测与跟踪、观点/文本倾向性识别和分析(对文章的观点进行倾向性分析和统计,识别正负面信息)、自动摘要等计算技术挖掘网络文本内容蕴含的各种观点(Opinion)、喜好(Preference)、态度(Attitude)、情感(Emotion)等,也可以明确网络传播者的意图和倾向,以及影响程度、影响范围和发展趋势。
当前一些实验室、研究机构等依据大数据分析的方法和实际的工作相结合,开发和建立了以下舆情专属的分析模型和方法。如:人民网推出的“舆论共识度”指数将为中国网络舆论场的研究和社会舆论的理性引导提供新的观察视角和决策依据。它把网络用户分为媒体、网民和意见领袖三大群体,通过对不同群体的舆论分析,对每月前十或前100的社会热点问题进行评估,形成“舆论共识度”,进而对用户对舆论话题的共识程度进行评价。
互联网与国家治理研究中心、中山大学大数据传播实验室设计的“网民认知模型”,通过透析网民对不同事件的情绪变化、态度偏向等,评测用户“正负能量”,分别从“网民情绪指数”“网民理性指数”和“网民态度指数”三个维度来评价具体热点事件当中网络舆论场的“网民正能量指数”,对舆情分析和研判也非常有帮助。
还有机构建立的热度评估指数,通过话题在传统媒体报道量、网络媒体报道量、微博量、论坛帖文量、博客文章量,转发数量、用户跟贴数量、评论数量、被关注数量、传播的速度和范围、关注的用户形态特征等相关数据,之后加权各项指标,得到每个热度事件或话题的综合热度指数。
更有一些专项深入分析,如针对传播源头的分析、传播渠道的分析、意见领袖的分析、传播主体挖掘分析或针对隐性数据(网络日志)的分析。
也有专家学者提出,舆情分析需要是一个综合分析模式,以大数据的方式为重点,同时要结合专项话題市场调研、综合民意调查(定性与定量)、软件与人工、分析师与专家会商等方式相结合的方法来分析。
4.舆情报告
舆情分析的结果需要以报告的方式呈现,并将分析报告反馈或发布,为用户、管理者和决策者提供依据。
舆情报告要求舆情分析数据要真实可靠,分析方法要恰当准确,描述要符合客观事实,结论要简明扼要、通俗易懂。舆情报告中恰当采用示意图、图表、列表等展示形式,可以更形象、清晰、直观,并且更逻辑地展示舆情事件的发生、发展和变化,舆情的发展态势等。针对不同的表达目的可以选用不同的图表或图示方式,如:描述事件发展趋势可用折线图表示、展示用户立场或观点的比例可用饼状图、体现热点人群的分布可以用散点分布图、表示频率分布可以用网状图或柱状图、说明事态发展变化可以用流程图、用户之前或背后的人际关系可以用网状关系图等。丰富的图表工具可以更形象、生动的表述舆情的现状、发展和变化。
三、大数据环境下舆情管理模式变革与管理方法创新
虽然,目前对大数据研究越来越热,国内诸多大的互联网公司、各行业内的企业及科研机构都投入了巨大的人力、物力开展大数据及大数据下舆情研究,但在我国大数据研究依然处于探索阶段,在很多方面还只是停留在理论或对未来的畅想阶段。例如:在技术方面,目前常见的舆情监测工作的主要手段仍以人工检索为主,尽管也使用了市面相对成熟的相关搜索软件进行辅助搜索,但搜索舆情的技术仍采用传统的二维搜索方式,即主题关键词和网络平台二维坐标,由舆情管理的工作人员对采集的信息进行二次加工成舆情产品。而且搜索的舆情信息结果多为一级文本信息,对于深层次的多级舆情信息,如新闻、微博后的评论,网民的社会关系,网民针对某一事件评论反映出的情绪变化等数据无法深度挖掘,仍靠人工采集和分析判断。受制于舆情分析人员的知识水平和价值判断的不同,极有可能导致有价值的舆情信息丢失,无法准确及时预测舆情走势,大大降低了舆情监测工作的效率、准确性。
随着互联网的发展、自媒体的兴起,网络、通信技术在人们信息领域深入运用,发布者在人口统计学方面的特征、发布的载体、发布的形式、传播渠道、信息的数量和形式等有了全新的变化,这对舆情的管理提出了更高的要求,要求变革网络舆情管理方式以适应大数据时代的新形势。因此,舆情管理工作者在舆情管理的理念、模式和方式方法上均需要有相应的变革与创新。
1.舆情工作者的研究视角需要发生转变
舆情工作者要从全局角度,把舆情研究从单一向度的内容研究向多元化、多向度内容及关系研究方向转化。网络数据和信息背后体现的人的行为轨迹和复杂的人与人的社会关系(Social networking),所以关系研究将成为未来的研究重点。大数据的特征之一“关联分析”,通过社会话语表达、社会关系分析、社会心理描绘、社会诉求预测等多个角度[8],进行多向度的分析研究能够帮助构建立体化、全局化和动态化的网络舆情数据系统,通过舆情分析,挖掘网络舆情和社会动态背后的深层次关系,实现网络舆情管理和社会治理的紧密联动、同步推进。
2.舆情的研究方法需要创新
即便是研究的视角发生了改变,要想真正落实到具体工作中,研究方法的创新尤为关键。要在分析方法上更加丰富,结合数据挖掘技术分析(Data Mining)方法与行为分析(Behavior Analysis)方法的研究、结合云计算、移动可追塑性分析、个性化特征识别的网络机器人与社会心理分析实验因果模型等方法,一是要提升数据监测技术,实现对媒体、论坛、博客、微博、微信等各个网络平台数据的全面抓取和记录,特别是要提高对图片、音视频、模拟信号等数据的自动识别能力;二方面提高数据挖掘技术,从海量数据中快速识别有价值数据,并挖掘数据背后隐藏的规律。三要注重数据分析技术,包括关联分析、聚类分析、语义分析等等,自动分析网上言论背后的观点、意见倾向和信息、相互之间的关联性,揭示舆情发展趋势。四是确保数据安全和保密技术,包括网络攻击与攻击检测与防范问题、安全漏洞与安全对策问题、数据备份与恢复问题、灾难恢复问题等等,确保数据安全和保密[9]。
在数据分析方面,数据分析的准确性尤为重要。引入云计算的概念和技术,与大数据相结合,会使舆情分析更加准确。开展数据间、不同维度、不同领域的数据、多样化的数据间的关联分析,是十分重要的。专家认为舆情关联关系是网络舆情数据库中存在的一类重要的、可被发现的知识,引入网络舆情支持度和网络舆情可信度,可以更准确表示网络舆情间的关联度,量化网络舆情关联规则的相关性,从而使挖掘结果更准确。
3.研究结果要易懂、易应用和可视化呈现
大数据的真正价值是运用,舆情的最终价值是指导工作。研究结果的使用者未必是大数据和舆情分析的专家。因此,研究结果要求易懂易识,界面必须友好,结果必须可以直观识别。 “用数据说话”。数据最有说服力,由于图表与列表能够清晰、直观、简洁、深刻、形象地表现舆情事件,因此舆情的研究结果要注重运用图表等可视化方式来展现。
4.重点强调舆情的预测,面向未来,做好舆情数据的再利用
大数据的核心是预测,未来舆情研究的重点应由舆情监测转向舆情预警和预测。舆情工作者通过收集分析互联网上关于社会热点或网民关注焦点事件的大量消息报道,发掘背后隐藏关系,进而预测事态发展趋势,为舆情事件处置提供决策参考。
展望未来,大数据时代数据使用的关键是数据再利用,数据再利用的意义在于:挖掘数据的潜在价值,实现数据重组的创新价值。基于大数据的舆情分析,能同时分析更多数据,揭露更多隐藏价值,使预测更准确,决策更合理。未来大数据将使舆情监测功能大大丰富,舆情分析功能更加强大,舆情预测能力进一步增强,这将实现全方位、立体式的综合舆情管理模式,实现舆情管理的价值最大化。
参考文献
[1] 中国互联网络信息中心(CNNIC).第37次中国互联网络发展状况统计报告[EB/OL].[2016-01-22].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201601/PO20160122444930951954.pdf.
[2] 谢耘耕,刘锐,乔睿,等. 大数据与社会舆情研究综述[J]. 新媒体与社会,2014(4):133-154.
[3] 张宁熙.大数据在突发公共事件网络舆情信息工作中的应用[J]. 现代情报,2015(6):38-42.
[4] 王宏伟.舆情信息工作策略与方法[M]. 北京: 中国人事出版社,2012:6.
[5] 戴维民,刘轶. 我国网络舆情信息工作现状及对策思考[J]. 图书情报工作,2014(1):24-29.
[6] 刘毅. 网络舆情研究概论[M].天津: 天津人民版社,2007:74.
[7] 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2012)的舆情模型构建[J].中国人民大学学报,2013(5):2-9.
[8] 李小娜. 大数据时代社会舆情监测的转变和发展[J]. 青年记者,2015(11):69-70.
[9] 卿立新. 创新大数据时代的网络舆情管理[J]. 红旗文稿,2014(22):28-29.
[责任编辑:张学玲]
相关文章!
  • 政府动员、乡贤返场与嵌入性治

    李传喜+张红阳〔摘要〕乡村社会的困境为“乡贤回归”提供了可能的空间,但是“新乡贤”的回归有着独特的行动逻辑:政府动员是其动力逻辑,“污

  • 新中国70年公民政治参与的历史

    蒋国宏摘 要:政治参与有助于减少决策失误,节约行政资源,提高行政效能,促进政府规范运作,减少和预防权力腐败,也有利于维护社会稳定。新

  • 《东文选》首篇诗作《织锦献唐高

    [摘要]《东文选》收录的第一首诗作题为无名氏的《织锦献唐高宗》,据现存收录此诗的其余十五种中、韩古代文献,可知其为唐高宗永徽元年(650)