数据挖掘技术在网络舆情管理中的研究
丁胜锋+杨绍辉
[摘 要]目前,随着海量网络舆情成指数增加,传统的数据处理技术不支持对海量舆情潜在信息的发现与挖掘,无法找到舆情信息之间的规则或关系,不能根据舆情现状预测未来发展趋势。在这种形势下,非常有必要把数据挖掘技术应用到网络舆情管理中,充分发挥数据挖掘的具体优势,从而实现对网络舆情的及时发现、快速分析、准确追踪和理性引导。
[关键词]数据挖掘;网络舆情;研究
[中图分类号] G41,TP399 [文献标识码] A [文章编号] 2095-3437(2016)11-0173-02
随着因特网在全世界范围内的普及,作为继报刊、广播、电视之后发展起来的与传统大众媒体并存的新媒体,因特网被称为第四媒体,它成为反映社会舆情的主要载体之一。随着信息技术的高速发展,人们积累的数据量越来越多,仅依靠传统的人工方法收集和处理海量网络信息是十分困难的。在这种情况下,迫切需要更加科学有效的信息处理技术,快速准确地分析网络舆情动态,及时对网络的热点、焦点与敏感话题做出反应,从而提高网络的监管能力和网络突发事件的处置能力。
一、数据挖掘概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘的对象是大量的、包含噪声的数据源或数据库,而挖掘的结果是对用户有帮助且事先未知的信息或知识。
近年来网络数据的爆炸性增长与数据处理技术的滞后之间的矛盾越来越突出,数据挖掘技术应运而生,并能从实际的海量数据源中抽取知识。数据挖掘技术被越来越多的行业和领域所采用,取得了较好的效果,为人们的正确决策提供了有力的帮助。[1] [2]
二、新形势下网络舆情现状分析
(一)大数据背景的网络舆情更加复杂
第一,网络舆情数据量巨大。数据的海量性和偶然性因素使社会舆情难以有效捕获,演变和发展过程难以推测,传统的处理方法显得捉襟见肘。第二,网络舆情选择性传播。网络数据的无限性和网民关注能力的有限性之间存在矛盾,这导致网民不能全面、准确了解舆情的真面目。网络媒体具备人际传播和大众传播的特点,容易让同类网民找到共鸣点,从而使一些偏激舆论被放大。第三,网络舆论话语权较分散。大数据背景下数据的获取相对容易,更多的机构或个人通过信息分析得出的结论迅速传播,有效管理舆情的难度越来越大。
(二)网络媒体影响力增强
在互联网发展的早期,网络媒体主要通过引用或转载报纸、广播、电视的报道内容,然后进行补充式的讨论。随着近年来移动客户端设备、软件的出现和网民数量的大幅度增长,传统媒体的传播优势逐渐减少。网络媒体依靠其传播的快速性和便捷性,吸引网民发布信息,引发舆论,反过来影响传统媒体的讨论。网络媒体已经成为传统媒体报道内容的重要来源之一。
(三)网络舆情载体多样化,影响力迅速提高
随着微信、微博、QQ等网络舆情载体的发展,网民的组织化程度越来越高。网民通过微信、微博、QQ、社交类网站来组建各种群组。这些网络载体能为网民提供Blog、Microblog、微信、图像、音频、视频等多种线上、线下互动功能。网民不再是一个独立的个体,通过加入各种群组,他们能够获取小范围的消息,并迅速把消息传播到全世界的每个角落。同时移动互联网的应用扩大了网民相互交流的时间域和空间域,“任何一个在场的人都可能一转身,上网发送文字、图片、视频,给政府的事件处置及舆情应对带来挑战”,“移动终端在突发事件‘现场直播的优势,让其他媒体望尘莫及”。[3] [4]
(四)网络舆情走向现实生活,推动事件发展
随着社会的进步,越来越多的网民不再在网络平台上议论和分析社会上的热点、敏感事件,不再满足于在网络上等待热点事情的真相,而是积极走向社会现实,亲自调查以还原事件真相。这增加了热点事件的透明度,加快了相关政府部门、企事业单位或个人对事情的处理速度。
(五)网络舆情导控与应对存在不足
第一,舆情应急准备不足,响应速度缓慢。目前网络舆情管控体系还不完善,这导致我们在处理突发事件时反应缓慢;在网络舆论爆发之时,难以进行有效监测、研判和引导。第二,危机处理方式被动,缺乏有效的制度。在一些敏感事件的处理中,我们常常采取回避、封堵或冷处理的办法,试图淡化舆情,急于控制事态而非疏导,这容易引发深层次的舆情危机。第三,舆情管控手段落后,设备投入不足。出现突发问题时,经常采用简单粗暴的手段来拖延或压制,如删帖、封IP、断网等。第四,网民配合消极。强大的网民力量,没有有效地配合相关部门的工作,容易被错误的舆论所引导和控制。[5]
三、数据挖掘技术在网络舆情管理中的应用
(一)网络舆情关联分析
在网络舆情管理中应用关联分析方法,能从海量、不完全、复杂多变的网络舆情信息中寻找舆情演变的内在原因和规律,分析各内在因素之间的关系。禽流感该如何更好地监控?今天你写Blog了吗?这两个事件放在一起看不出有什么特别的意义。但事实上,美国一家公司研究发现,这两个事件之间有联系,可以通过互联网上的Blog网页挖掘出和禽流感相关的信息,从而建立一个禽流感预警机制。
(二)网络舆情聚类分析
聚类分析是一个将数据集中的所有数据,按照相似性划分为多个类别的过程。聚类分析之后,应尽可能保证类别相同的数据之间具有较高的相似性,而类别不同的数据之间具有较低的相似性。依照网民表达的特点和性质,网络舆情聚类主要有过程聚类和观点聚类两种。过程聚类主要指分析网民的思想观点、态度情绪的改变,从而掌握网络舆情的演变过程,监测二次舆情的发生。观点聚类主要指把网民的相同观点汇集起来,分析网民的各种观点、情绪的分布和占比。
(三)网络舆情分类分析
网络舆情信息一般分为四类。第一,思想反映类。这主要是指社会上各个层次的网民的主流观点,思想动态。第二,问题倾向类。这主要是指政府机关、企事业单位工作中存在的问题及不足。第三,工作动态类。这主要是指宣传思想政治工作的形势和动态。第四,对策建议类。这主要是指针对社会热点、焦点话题提出的对策和建议。
根据自身需求,首先对海量的网络舆情信息进行筛选,然后进行分类和分组,如分成教育医疗、反恐除暴、网络安全、食品安全、城镇化等类别,为下一步的工作打下基础。最后对各类别的舆情信息进行分析和挖掘,得到有针对性的知识或经验。
(四)网络舆情预测分析
预测分析是指在掌握历史资料和调研资料等现有信息的基础上,依照一定的方法和规律,对事物未来趋势或可能的结果进行测算,以预先了解事情发展的过程与结果。例如美国最重要的以军事为主的综合性战略研究机构兰德公司,运用运筹学理论和方法,曾经就“中国是否出兵朝鲜”、“中美建交”、“古巴导弹危机”、“美国经济大萧条”和“德国统一”等重大事件进行了成功预测,揭示了事件的变化规律和趋势。[6]
(五)网络舆情序列分析及时间序列
序列分析是指通过对网络舆情信息发生的时间序列进行排序梳理,得出的重复发生概率较高的模式。序列分析技术可以很好地应用于网络舆情的监控和预警。在舆情信息汇集和分析的基础上,对社会运行接近负向质变的临界值的程度做出初步确定的早期预报。事实证明,在一些危害社会稳定的不良事件发生之前、发生过程中,甚至是结束后,都能通过大量的网络信息的收集、整理分类,有针对地选取数据并对该数据进行规律预测或优先等级排序,从而有步骤、有计划的处理网络舆情,这样就能通过对舆情的收集达到实现对不良事件的预防和控制的目的;能够及时掌握网络舆情动态,避免很多事件向消极的方向发展,使对不良网络舆情的处理从即时处置型向事前预警型转变。在大规模舆情危机爆发之前,应尽早针对热点话题梳理情况,快速应对。[7]
(六)网络舆情偏差分析
偏差分析是指发现数据集中的异常数据。2008年3月14日发生在西藏拉萨的打砸抢烧事件,是一起骇人听闻的严重暴力犯罪事件,给当地人民群众生命财产造成了重大损失,使当地的社会秩序受到严重破坏。这一事件遭到了全国各族人民的强烈谴责,但同时针对这一动乱事件,西方媒体却歪曲事实,混淆视听,在报道中出现了极大的偏差,违背了新闻道德,损害了中国的国家利益。
四、结束语
随着信息技术的快速发展,网络舆情复杂多变,传统的数据分析技术难以奏效。新兴的数据挖掘技术能够对网络舆情进行关联分析、聚类分析、分类分析、预测分析、序列分析和偏差分析,实现了对网络舆情快速准确的监测、研判和引导,取得了较好的效果。
[ 参 考 文 献 ]
[1] 赵新辉,郭瑞.基于数据挖掘技术的网络舆情智能监测与引导平台设计研究[J].电脑知识与技术,2012(1):1-2,4.
[2] 殷卫东,朱晓华,赵俊凯.网络舆情技术浅析[J].信息网络安全,2012(3):5-9.
[3] 柳胜国.网络舆情中的具有影响力个体信息发现与WEB日志数据挖掘预处理技术[J].价值工程,2012(16):186-187.
[4] 杨永红.基于数据挖掘技术的网络舆情研究[D].重庆:重庆大学,2010.
[5] 徐晓日.网络舆情事件的应急处理研究[J].华中电力大学学报(社会科学版),2007(1):89-93.
[6] 乐烁.兰德公司发展经验与对我国智库建设的启示[D].武汉:湖北大学,2013.
[7] 朱毅华,郭诗云,张超群.网络舆情研究中的仿真方法应用综述[J].情报杂志,2013(10):29-35.
[责任编辑:陈 明]
[摘 要]目前,随着海量网络舆情成指数增加,传统的数据处理技术不支持对海量舆情潜在信息的发现与挖掘,无法找到舆情信息之间的规则或关系,不能根据舆情现状预测未来发展趋势。在这种形势下,非常有必要把数据挖掘技术应用到网络舆情管理中,充分发挥数据挖掘的具体优势,从而实现对网络舆情的及时发现、快速分析、准确追踪和理性引导。
[关键词]数据挖掘;网络舆情;研究
[中图分类号] G41,TP399 [文献标识码] A [文章编号] 2095-3437(2016)11-0173-02
随着因特网在全世界范围内的普及,作为继报刊、广播、电视之后发展起来的与传统大众媒体并存的新媒体,因特网被称为第四媒体,它成为反映社会舆情的主要载体之一。随着信息技术的高速发展,人们积累的数据量越来越多,仅依靠传统的人工方法收集和处理海量网络信息是十分困难的。在这种情况下,迫切需要更加科学有效的信息处理技术,快速准确地分析网络舆情动态,及时对网络的热点、焦点与敏感话题做出反应,从而提高网络的监管能力和网络突发事件的处置能力。
一、数据挖掘概念
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘的对象是大量的、包含噪声的数据源或数据库,而挖掘的结果是对用户有帮助且事先未知的信息或知识。
近年来网络数据的爆炸性增长与数据处理技术的滞后之间的矛盾越来越突出,数据挖掘技术应运而生,并能从实际的海量数据源中抽取知识。数据挖掘技术被越来越多的行业和领域所采用,取得了较好的效果,为人们的正确决策提供了有力的帮助。[1] [2]
二、新形势下网络舆情现状分析
(一)大数据背景的网络舆情更加复杂
第一,网络舆情数据量巨大。数据的海量性和偶然性因素使社会舆情难以有效捕获,演变和发展过程难以推测,传统的处理方法显得捉襟见肘。第二,网络舆情选择性传播。网络数据的无限性和网民关注能力的有限性之间存在矛盾,这导致网民不能全面、准确了解舆情的真面目。网络媒体具备人际传播和大众传播的特点,容易让同类网民找到共鸣点,从而使一些偏激舆论被放大。第三,网络舆论话语权较分散。大数据背景下数据的获取相对容易,更多的机构或个人通过信息分析得出的结论迅速传播,有效管理舆情的难度越来越大。
(二)网络媒体影响力增强
在互联网发展的早期,网络媒体主要通过引用或转载报纸、广播、电视的报道内容,然后进行补充式的讨论。随着近年来移动客户端设备、软件的出现和网民数量的大幅度增长,传统媒体的传播优势逐渐减少。网络媒体依靠其传播的快速性和便捷性,吸引网民发布信息,引发舆论,反过来影响传统媒体的讨论。网络媒体已经成为传统媒体报道内容的重要来源之一。
(三)网络舆情载体多样化,影响力迅速提高
随着微信、微博、QQ等网络舆情载体的发展,网民的组织化程度越来越高。网民通过微信、微博、QQ、社交类网站来组建各种群组。这些网络载体能为网民提供Blog、Microblog、微信、图像、音频、视频等多种线上、线下互动功能。网民不再是一个独立的个体,通过加入各种群组,他们能够获取小范围的消息,并迅速把消息传播到全世界的每个角落。同时移动互联网的应用扩大了网民相互交流的时间域和空间域,“任何一个在场的人都可能一转身,上网发送文字、图片、视频,给政府的事件处置及舆情应对带来挑战”,“移动终端在突发事件‘现场直播的优势,让其他媒体望尘莫及”。[3] [4]
(四)网络舆情走向现实生活,推动事件发展
随着社会的进步,越来越多的网民不再在网络平台上议论和分析社会上的热点、敏感事件,不再满足于在网络上等待热点事情的真相,而是积极走向社会现实,亲自调查以还原事件真相。这增加了热点事件的透明度,加快了相关政府部门、企事业单位或个人对事情的处理速度。
(五)网络舆情导控与应对存在不足
第一,舆情应急准备不足,响应速度缓慢。目前网络舆情管控体系还不完善,这导致我们在处理突发事件时反应缓慢;在网络舆论爆发之时,难以进行有效监测、研判和引导。第二,危机处理方式被动,缺乏有效的制度。在一些敏感事件的处理中,我们常常采取回避、封堵或冷处理的办法,试图淡化舆情,急于控制事态而非疏导,这容易引发深层次的舆情危机。第三,舆情管控手段落后,设备投入不足。出现突发问题时,经常采用简单粗暴的手段来拖延或压制,如删帖、封IP、断网等。第四,网民配合消极。强大的网民力量,没有有效地配合相关部门的工作,容易被错误的舆论所引导和控制。[5]
三、数据挖掘技术在网络舆情管理中的应用
(一)网络舆情关联分析
在网络舆情管理中应用关联分析方法,能从海量、不完全、复杂多变的网络舆情信息中寻找舆情演变的内在原因和规律,分析各内在因素之间的关系。禽流感该如何更好地监控?今天你写Blog了吗?这两个事件放在一起看不出有什么特别的意义。但事实上,美国一家公司研究发现,这两个事件之间有联系,可以通过互联网上的Blog网页挖掘出和禽流感相关的信息,从而建立一个禽流感预警机制。
(二)网络舆情聚类分析
聚类分析是一个将数据集中的所有数据,按照相似性划分为多个类别的过程。聚类分析之后,应尽可能保证类别相同的数据之间具有较高的相似性,而类别不同的数据之间具有较低的相似性。依照网民表达的特点和性质,网络舆情聚类主要有过程聚类和观点聚类两种。过程聚类主要指分析网民的思想观点、态度情绪的改变,从而掌握网络舆情的演变过程,监测二次舆情的发生。观点聚类主要指把网民的相同观点汇集起来,分析网民的各种观点、情绪的分布和占比。
(三)网络舆情分类分析
网络舆情信息一般分为四类。第一,思想反映类。这主要是指社会上各个层次的网民的主流观点,思想动态。第二,问题倾向类。这主要是指政府机关、企事业单位工作中存在的问题及不足。第三,工作动态类。这主要是指宣传思想政治工作的形势和动态。第四,对策建议类。这主要是指针对社会热点、焦点话题提出的对策和建议。
根据自身需求,首先对海量的网络舆情信息进行筛选,然后进行分类和分组,如分成教育医疗、反恐除暴、网络安全、食品安全、城镇化等类别,为下一步的工作打下基础。最后对各类别的舆情信息进行分析和挖掘,得到有针对性的知识或经验。
(四)网络舆情预测分析
预测分析是指在掌握历史资料和调研资料等现有信息的基础上,依照一定的方法和规律,对事物未来趋势或可能的结果进行测算,以预先了解事情发展的过程与结果。例如美国最重要的以军事为主的综合性战略研究机构兰德公司,运用运筹学理论和方法,曾经就“中国是否出兵朝鲜”、“中美建交”、“古巴导弹危机”、“美国经济大萧条”和“德国统一”等重大事件进行了成功预测,揭示了事件的变化规律和趋势。[6]
(五)网络舆情序列分析及时间序列
序列分析是指通过对网络舆情信息发生的时间序列进行排序梳理,得出的重复发生概率较高的模式。序列分析技术可以很好地应用于网络舆情的监控和预警。在舆情信息汇集和分析的基础上,对社会运行接近负向质变的临界值的程度做出初步确定的早期预报。事实证明,在一些危害社会稳定的不良事件发生之前、发生过程中,甚至是结束后,都能通过大量的网络信息的收集、整理分类,有针对地选取数据并对该数据进行规律预测或优先等级排序,从而有步骤、有计划的处理网络舆情,这样就能通过对舆情的收集达到实现对不良事件的预防和控制的目的;能够及时掌握网络舆情动态,避免很多事件向消极的方向发展,使对不良网络舆情的处理从即时处置型向事前预警型转变。在大规模舆情危机爆发之前,应尽早针对热点话题梳理情况,快速应对。[7]
(六)网络舆情偏差分析
偏差分析是指发现数据集中的异常数据。2008年3月14日发生在西藏拉萨的打砸抢烧事件,是一起骇人听闻的严重暴力犯罪事件,给当地人民群众生命财产造成了重大损失,使当地的社会秩序受到严重破坏。这一事件遭到了全国各族人民的强烈谴责,但同时针对这一动乱事件,西方媒体却歪曲事实,混淆视听,在报道中出现了极大的偏差,违背了新闻道德,损害了中国的国家利益。
四、结束语
随着信息技术的快速发展,网络舆情复杂多变,传统的数据分析技术难以奏效。新兴的数据挖掘技术能够对网络舆情进行关联分析、聚类分析、分类分析、预测分析、序列分析和偏差分析,实现了对网络舆情快速准确的监测、研判和引导,取得了较好的效果。
[ 参 考 文 献 ]
[1] 赵新辉,郭瑞.基于数据挖掘技术的网络舆情智能监测与引导平台设计研究[J].电脑知识与技术,2012(1):1-2,4.
[2] 殷卫东,朱晓华,赵俊凯.网络舆情技术浅析[J].信息网络安全,2012(3):5-9.
[3] 柳胜国.网络舆情中的具有影响力个体信息发现与WEB日志数据挖掘预处理技术[J].价值工程,2012(16):186-187.
[4] 杨永红.基于数据挖掘技术的网络舆情研究[D].重庆:重庆大学,2010.
[5] 徐晓日.网络舆情事件的应急处理研究[J].华中电力大学学报(社会科学版),2007(1):89-93.
[6] 乐烁.兰德公司发展经验与对我国智库建设的启示[D].武汉:湖北大学,2013.
[7] 朱毅华,郭诗云,张超群.网络舆情研究中的仿真方法应用综述[J].情报杂志,2013(10):29-35.
[责任编辑:陈 明]