网站首页  词典首页

请输入您要查询的论文:

 

标题 基于涉军论坛中用户属性及关系的用户影响力分析
范文

    娄国哲+王兰成

    

    

    

    [摘 要]涉军论坛是聚焦涉军主题的社交服务平台,分析其用户属性、关系及其影响力对于舆情引导具有重要的现实意义。本文使用特定的数据采集策略,获取了某涉军论坛的上万名用户数据,运用基于用户属性和社会网络的9个指标对用户影响力进行具体的分析和排名,最后使用投票法对结果进行了综合分析,从而查找最具影响力的前10名用户,找出地位特殊的用戶,为舆情引导提供重要依据。

    [关键词]涉军论坛;用户;属性;关系;影响力

    doi:10.3969/j.issn.1673 - 0194.2016.22.099

    [中图分类号]G25.2 [文献标识码]A [文章编号]1673-0194(2016)22-0-03

    在美国实施重返亚太战略后,我国东南海方向军情越发复杂,联合军演、自由巡航、南海仲裁等大量涉军话题在主流媒体中不断曝光。由于涉军论坛具有表现能力强、参与用户广、互动方式多等特点,自然成为涉军舆情引导的主要战场之一。针对具体的涉军论坛,本文分析其用户影响力,发现“论坛领袖”,为舆情引导提供重要依据。

    1 用户属性及关系数据的采集

    分析用户影响力的一般过程,首先是通过采集器采集用户属性数据及其关系数据,然后对采集到的数据进行规整和建模,最后建立评价指标对用户影响力进行评价。

    1.1 采集策略的制定

    采集论坛用户数据的最有效方法是论坛管理员直接获得后台数据,但是这种方法往往难以实施,常用的方法是使用网络爬虫对特定论坛进行抓取。要想高效地获取有价值的用户数据,必须遵循一定的抓取策略。抓取策略主要包括初始用户集合的确定、搜索算法的选取、干扰用户的鉴别、终止条件的确定等方面。

    (1)初始用户集合的确定。可以有多种方法,例如可以选择论坛热帖的楼主和跟帖者作为初始用户集合,也可以选择某主题新帖的楼主和跟帖者作为初始用户集合,还可以以各版块版主作为初始用户集合等。

    (2)搜索算法的选取。主要分为广度优先、深度优先和最佳优先策略三种算法。广度优先算法以初始用户集合为中心进行逐层扩展,采集的用户与初始用户关系密切;深度优先算法以初始用户集合为起点进行深度搜索,易搜索出复杂的关系网。

    (3)干扰用户的鉴别。论坛中除了大量的僵尸用户外,还有不少水军,排除这些用户更利于提高用户分析的效率和准确性。可以通过查看用户登录时间、发帖数量、发帖质量来进行有效鉴别。

    (4)终止条件的确定。用户搜索必须设置终止条件,例如:可以设定用户数量上限、可以设定搜索次数、可以设定搜索深度等。不同的用户分析需求应该选择不同的终止条件。

    依据采集目的,本文采取的策略为:以涉军板块新帖楼主和跟帖者为初始用户集合,采用广度优先的搜索算法,屏蔽长时间没有登录的用户和发帖质量较低的用户,直至搜索不到新的有效用户为止。

    1.2 采集步骤的设计

    本文采集的论坛中,用户可以通过添加关注的方式将其他用户加自己的“好友”,好友的最近动态将被自动推送给关注用户。关注某用户的用户称之为被关注用户的“粉丝”。

    本文以涉军板块近期新帖楼主和跟帖者为初始用户集合,采用广度优先搜索近期登录的用户和发帖质量较高的用户,循环以上步骤直至搜索不到新的有效用户为止。采集步骤设计如下。

    ①查找该论坛11个涉军板块近一个月的新帖,将楼主和跟帖用户确定为待搜索用户集合。②遍历待搜索用户集合中的用户,选择粉丝数大于10或者年发帖量大于50或者年精华帖大于2的用户,采集该用户的粉丝。③遍历待搜索用户集合中的用户,选择关注数大于10或者年发帖量大于50或者年精华帖大于2的用户,采集该用户的好友。④将待搜索用户集合清空,并将步骤②和步骤③中采集到的新用户添加到待搜索集合。⑤重复②、③、④步骤,直至待搜索集合为空。

    1.3 采集的量化结果

    经过两天时间的采集,用户关系网络得到收敛,获得一个联通有向图。本次采集,共抓取用户14 509个,用户关系163 647个。分析该联通有向图,存在13个环,平均度数为22.56。用户网龄最长的为12年,用户最多发帖222 076个,用户最多精华帖1 604个,用户最多粉丝数432个,用户最多好友数为353个。

    2 从用户属性分析用户的影响力

    用户影响力是指用户驱使其他用户认同某观点或使信息广泛传播的能力。国外较早开始对社交网络的研究,主要是针对Twitter用户,多数算法是基于著名的网页排名算法PageRank算法,对影响因子的选取主要有转贴、回复、提及的能力。不同论坛的用户属性数据有所区别,但最重要的是发帖数量、精华贴数量及点赞数等属性。

    2.1 用户影响力相关主要属性

    直接采集到的论坛用户属性主要包括发帖数量、精华帖数、好友数和粉丝数。

    (1)发帖数量。发帖数量指的是用户发表的主题帖和评论帖的总数。发帖数量的多少直接体现了用户的活跃度,显然用户发帖数量越多,影响力就可能越大。经统计,用户发帖量符合二八原则,发帖最多的前21.7%用户发布了80%的帖子,而近3%的用户没有发帖。用户发帖量与用户数分布近似指数分布。

    (2)精华帖。精华帖是指引起热议的原创帖。精华帖数体现了用户的发帖质量,是其他用户对该用户发帖的认可度,可以体现出用户影响力。

    (3)好友数。好友数是指用户关注其他用户的数量。好友数的多少反映了该用户获取信息的愿望和能力,可以在一定程度上提高用户影响力。经统计,26.7%的用户关注了多于10名的好友,其中1%的用户关注了多于100名的好友,没有好友的用户几乎没有。

    (4)粉丝数。粉丝数是其他用户对该用户关注程度的直接反映,是反映用户影响力最为直接的属性。经统计,35.3%的用户拥有超过10名的粉丝,其中1.3%的用户拥有超过100名的粉丝,56%的用户没有粉丝。

    2.2 用户影响力分析

    用户属性中与用户影响力相关的属性主要有发帖数量、精华帖数、好友数和粉丝数。使用4种属性对用户进行评价并对用户进行排序,得到4种不同的结果,见表1。

    2.3 属性相关性分析

    用户的发帖数量、精华帖数、好友数和粉丝数是与用户影响力最为相关的几個属性。经分析,发帖数量、精华帖数与粉丝数均没有明显的线性相关性,存在很多精华帖不多、但粉丝数很多的用户;也存在不少精华帖较多、但粉丝数较少的用户。发帖数量、精华帖数与好友数也不存在明显的线性相关性,发帖数量与精华贴数也不存在明显线性相关性,好友数与粉丝数也不存在明显线性相关性。

    3 从用户关系分析用户影响力

    社会网络分析方法是由社会学家根据数学方法﹑图论等发展起来的定量分析方法,以社会结构为主要研究对象,而不特别关注个体属性。

    3.1 社会网络中的用户影响力

    从社会网络角度分析,用户影响力主要表现为信息获取能力、信息传播能力和信息控制能力。

    信息获取能力是指用户收集特定主题信息的能力。在社会网络中,好友越多,越容易获得信息;好友影响力越大,越容易获得高质量信息。信息传播能力是指用户发布的帖子传播的广度和速度。在社会网络中,粉丝越多的用户,发布的帖子传播越广;粉丝的影响力越大,发布的帖子传播得越快。信息控制能力是指用户在信息传播过程中作为“消息中间人”所发挥的作用。在社会网络中,经常作为其他用户中间人的用户信息控制能力较强。

    在社会网络分析中,“中心度”是用来描述个人或组织在社会网络中居于怎样地位的一种度量,主要度量有“度数中心度”“中间中心度”和“邻近中心度”等。

    (1)度数中心度是描述节点度数的一种度量,用节点的度数表示。如果某节点具有较高的度数,自然与其他节点“关系密切”。在有向图中又分为“内中心度”和“外中心度”,分别对应“点入度”和“点出度”。“内中心度”可以描述用户传播信息的能力,粉丝越多,传播能力越强;“外中心度”可以描述用户获取信息的能力,好友越多,获取信息能力越强,从而进一步影响其粉丝。

    (2)中间中心度是描述节点发挥“中间人”作用的一种度量,用节点通过任意其他两个节点最短路径的次数表示。如果最短路径是某两个节点的唯一最短路径,则次数增加1,否则增加m/n(其中n为最短路径的条数,m为经过该节点的最短路径条数)。如果一个节点多次位于其他节点的最短路径上,则此节点居于重要地位。该指标可以描述用户在传播信息中发挥“消息中间人”作用的重要程度。

    (3)邻近中心度是描述节点与其他节点邻近程度的一种度量,用节点与其他节点最短路径之和的倒数表示。如果某节点与其他所有节点的总距离较短,则该节点对其他节点的影响则较为直接。在有向图中,该度量又分为内邻近性和外邻近性。内邻近性越大表示该节点的消息扩散越快,外邻近性越大表示该节点能够较快获得其他节点的消息。

    3.2 用户影响力分析

    使用复杂网络分析软件,计算用户关系网络的“度数中心度”“中间中心度”和“邻近中心度”3个度量共5个指标,并对用户进行排序,得到5种不同的结果,见表2。5种结果从不同角度分析了用户在关系网络中的中心地位。

    3.3 指标相关性分析

    “度数中心度”“中间中心度”和“邻近中心度”从不同角度分析了用户在社会网络中的地位,从计算方法来看,可能有一定的相关性。经分析用户度数中心度与邻近中心度存在相关性,内中心度与外中心度不存在明显的相关性,中间中心度与其他中心度指标不存在明显的相关性。

    4 用户影响力的综合评价

    从用户属性分析用户的影响力,主要关注用户创造信息的能力,而从社会网络分析用户的影响力,则主要关注用户传播信息的能力。笔者使用投票法对多种结果进行综合评价,对该投票法计算方法进行如下所述。

    假设存在m种评价指标,分别表示为Ci(i=1,2,…,m)。用Ci(n)表示节点n在第i种评价指标中的得分,用Si(n)表示节点n在第i种评价指标中的排名,用Nia={n|Si(n) ≤a}表示在第i种评价指标中排名在前a名的节点集合。用C表示使用m种评价指标进行投票的综合评价指标,则Ca(n)=F1a (n)+ F2a (n)+…+ Fma (n)(其中Fia(n)=1当且仅当n∈Nia,否则=0)。用Sa(n)表示节点n在综合评价指标中的排名,用Nba={n|Sa(n) ≤b}表示在综合评价指标中排名在前b(b≤a)名的节点集合,则Nba即为综合评价的结果。

    从两种视角共9种指标中选取相互独立的发帖数量、精华贴数、好友数、粉丝数和中间中心度5种指标对用户进行综合评价,取a=20,b=10,则可以计算出综合影响力排名前10名的用户,见表3。

    从表3中看出,影响力前10名的用户中,“1306246”和“1857202”在关系网络中地位最为重要,在5项分指标中3次进入前20名;其他用户则仅有2次进入前20名。因此,用户影响力综合评价方法充分考虑了用户的主要属性和社会网络关系,能较为客观地对用户按照影响力进行了排名。

    主要参考文献

    [1]张殿芳.基于网页分块的论坛爬虫关键技术研究[D].哈尔滨:哈尔滨工业大学,2009.

    [2]唐飞龙,叶施仁,肖春.基于用户质量的微博社区博主影响力排序算法[J].计算机工程与应用,2015(4).

    [3]路远聪,刘云.基于用户能量排序的论坛用户影响力分析[J].铁路计算机应用,2014(12).

    [4]阳德青.面向社会网络的用户行为挖掘与应用研究[D].上海:复旦大学,2013.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/12 0:32:41