网站首页  词典首页

请输入您要查询的论文:

 

标题 网络舆情热点获取与分析算法研究
范文

    徐建国 蔺珍 张鹏

    

    

    摘 要:从新闻网页中自动获取大量舆情数据,经过热点提取算法划分到不同话题簇中,并获取网络舆情最新热点。通过网络舆情变动周期把握舆情随时间发展情况,利用中文分词提取每篇新闻关键词,并对网页集合利用改进K-Means算法进行分析获得热点,从而获取某事件由出现到消亡过程中的热点迁移。改进的K-Means算法能有效分析获取的热点,有利于政府通过网络舆情热点掌握最新舆论动态,引导公众正确看待问题,营造积极、健康的社会氛围。

    关键词:网络舆情;舆情热点;K-means聚类;话题簇

    DOI:10. 11907/rjdk. 182597

    中图分类号:TP312 文献标识码:A 文章编号:1672-7800(2019)005-0093-05

    Abstract:This paper automatically obtains a large amount of public opinion data from the news webpages, and divides them into different topic clusters through the hotspot extraction algorithm, and obtains the latest hotspots of the network public opinion. The development of public opinion over time are grasped through the network public opinion change cycle, Chinese word segmentation is used to extract the keywords of each news, and the improved algorithm of K-Means algorithm is used for web page collection to obtain hotspots, so as to obtain an event from appearance to hotspot migration during the demise. The improved algorithm of K-Means algorithm can effectively analyze the hotspots obtained. It is beneficial for the government to grasp the latest public opinion dynamics through online public opinion hotspots, guide the public to correctly treat problems and create a positive and healthy social atmosphere.

    Key Words: network public opinion; public opinion hotspots; K-means clustering; topic cluster

    0 引言

    随着互联网技术的飞速发展,网络媒体已成为人们获取信息的主要途径。网络舆情是指在互联网上流行的对社会事件的不同网络舆论,公众可以畅所欲言,行使自己的监督权、知情权、表达权与参与权,从而在一定程度上影响了国家网络安全。因此,需要对网络舆情进行分析、监控与引导,以及时防范误导性言论造成社会危害。

    网络舆情是指由于各种事件刺激产生的通过互联网传播的人们对于该事件所有认知、态度、情感与行为倾向的集合[1]。网络舆情热点获取是指“对广大网民关于网络舆情的关注点以及后续发展关注度集合的掌控”。国内外研究者运用不同方法与技术实现网络舆情热点获取,并对获取过程中采用的相关算法进行研究。Manquan等[2]利用层次聚类算法,按时间顺序对新闻语料进行分组,从而有效避免了将内容相似,但实际上是两个完全不同话题的报道聚合在一起,而且通过组间聚类可以使时间跨度较大的话题合并成一个话题;Makkonen等[3]对TDT探索过程中出现的技术进行总结,如正文提取、检索和过滤、文本分类等;Yang&Ault等采用K最近邻算法与Rocchio进行话题跟踪研究;Cui&Kitagawa提出一种基于文本到达率与文本相关度的话题活跃程度分析方法;Kleinberg认为话题报道数量会在不同水平之间跃迁,增长率突然升高的词很可能会成为热点话题的表征词,因此提出突发检测算法;Zheng等[4]利用 Aging Theory对论坛中的热点话题进行识别,从而快速挖掘任意时间段内的热点话题。

    虽然国内在该领域的研究起步较晚,但很多学者对其进行了大量研究,也取得了较多成果。通过各种聚类算法对信息进行分类,已有算法包括:K-mean算法、PAM算法、ARHP算法、OPTICS算法、PDDP算法与DBSCAN算法等。黄敏、胡学钢以舆情网络为节点、以链接关系为边搭建网络舆情传播网,采用PageRank与 Hits 算法挖掘网络舆情热点;韩晨靖[5]在已有聚类算法基础上创新性地添加可从标题提取特征词并改进文档相似度的算法,以提高网络舆情熱点获取准确率;王宏伟[6]对新闻报道与网民评论进行研究,首先考虑新闻报道特点和话题的多中心性,对原有聚类算法进行改进;其次,修改网民发表评论的非正式人名,借助频繁模式算法寻找评论出现的频繁模式。专家学者们通过对网络舆情的不断深入研究,相关思想与技术日趋成熟,对于热点的获取也更加准确。

    1 研究设计

    1.1 数据来源与采集

    凤凰网新闻通常是对多个新闻网页的整合,因此本文以凤凰网为例进行分析,可获得较为全面的信息。网络舆情数据主要来自爬虫采集[7],爬虫采集是指利用种子链接向 Web 服务器发送 HTTP 请求,以获取当前网页内容,并分析得出其它所有链接,依据一定筛选标准从中选取某些链接加入下载队列,重复以上过程直至达到停止条件。

    1.2 数据预处理

    数据预处理主要包括数据清理、数据集成和数据规约,本文主要进行数据清洗与数据存储。首先通过爬虫采集网页元数据,然后进行相应处理如删除原始数据集中无关数据、平滑噪声数据等,最后将处理完的数据存入数据库以备后续查找等[8]。

    从新闻网页上爬取的网络舆情数据长短不同,如果对整篇文章进行处理会影响分析效率。但是每篇新闻主旨都能用几个简单的词进行概括,因此只需提取能真实反映文章主旨的词即可,这些词称为关键词。经过中文分词后,每篇新闻都能得到对应关键词,然后利用Jieba分词技术[9]根据词频对词语进行排序。候选集特征向量是出现频次更高的若干词语,计算出每个词语权重,将上述候选集用文本描述成由不重复词组成的表,转换成系统可处理的文本特征向量即转换成功[10]。

    系统构建SVM向量模型[11],在具体操作中,将每个网页都采用一个散列映射表变量与之对应,由此形成词、权重值的对应关系,其网页i变量定义为:Hashmap< String,Double> page[i]= new Hash-map

    从去除停用词的n个特征词中选取m个(m

    根据抓取的热点事件[14],对热点词随时间的变迁进行分析,基本可以确定热点事件变动周期[15]。该变动周期形式主要分为梯形、单峰型、波浪形或其组合形式[16]。

    1.3 基于模糊粒度的K-means算法设计

    通过对K-means聚类算法的分析发现:K值需要事先给定,初始中心点选取对聚类结果影响较大,且聚类结果对异常点较为敏感。针对中心点选取对聚类结果敏感的缺点,本文对K-means聚类算法进行改进,提出一种基于模糊粒度的K-means聚类算法[17]。

    定义1:普通关系。设X、Y是两个非空集合,X×Y的每一个子集R称为X到Y的一个普通关系。

    定义2:模糊关系。给定论域U和V,直积U×V={(u,v)|u∈u,v∈V}的每一个模糊子集R称为U到V的模糊关系。

    模糊关系R由其隶属函数μR完全确定,对任意(μ0, υ0)∈U×V,μR(μ0,υ0)表示(μ0,υ0)具有关系R的程度。

    模糊关系R是X×Y中的一个模糊子集。

    设R为U上的一个模糊关系,若R满足下列条件:①自反性,即μR(x,x)=1,x∈U;②对称性,即μR(x,y)=μR(y,x),x,y∈U;③传递性,即R2?R。算法具体步骤如下:

    (1)信息采集与清洗[18]。根据分制算法将参数d所在理论区间划分为较小区间,依据不同的d进行聚类,并去掉效果不好的区间。

    (2)从数据集X中随机选取k个数据对象,并将其设定为初始聚类中心,则形成初始聚类中心点C1,C2,…,Ck,数据集即可确定划分成k类。

    (3)分别计算数据集中剩下每个数据对象到k个初始中心点的距离,将每一数据对象根据距离就近划分到最相近的类中,从而形成以k个初始中心点为中心的类。例如,数据对象Xp离中心点[Ci](i≤k)最近,因此将数据对象Xp划分到[Ci]类中。

    (4)根据公式[Ci=1nix=wiX],重新计算每一个聚类的中心点,即得到C*1,C*2,…,C*k。

    (5)重复步骤(3)、(4),直到重新计算后的聚类中心点与计算前的聚类中心点相同,任何变化都未发生,说明聚类结果已达到收敛,输出聚类结果。

    根据K-means算法基本原理,下面给出基于模糊粒度的K-means聚类算法简易流程,如图1所示。

    模糊粒度计算方法即先利用分治算法思想将参数值d所在理论区间分解成较小区间,在每一个小区间上选取一个距离空间数作为dθ值,依据不同dθ值分别对数据集进行聚类,去掉聚类效果不好的区间,然后利用连续属性离散化思想对剩余区间进行离散。dθ取遍离散化后的区间端点值对数据集进行聚类,利用95%有序BWP指标值的均值衡量聚类结果,均值越大,说明聚类效果越好,最大均值对应最好的聚类结果。粒度值d由粗变细的过程便会产生动态聚类结果,粒度越粗,划分区间越大,对异常点敏感问题则处理得越好,但同时数据失真度也越大;粒度越细,异常点对聚类结果影响越大,但数据真实度高。该改进算法解决了K-means聚类算法聚类数需要事先给定,以及对初始中心点选取与异常点较敏感的问题[19]。

    将互联网获取的新闻网页数据通过热点提取算法划分到不同话题簇中是网络舆情热点提取的主要模式,并可在需要时扩充新的话题簇[20]。该模式可帮助人们快速发现有用信息,并了解与监督网络整体舆论情况。实验需要准备的数据为包含n个数据对象的数据库,即通过网页分析获得的网页内容,以及满足方差最小标准的k个聚类输出,输出的k个聚类即为k个热点。

    2 实验与分析

    本实验以凤凰网2016年11月1号-2017年5月1号的新闻为例,对网络舆情获取过程进行完整演示,并对结果进行分析。

    首先通过关键词“朴槿惠”、“崔顺实”获得所有相关新闻与带有关键信息的URL,通过“查看网页源代码”可以找到网页特点,标题存放在中,时间存放在中,内容存放在

    中。

    标题:

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/1/1 12:39:24