基于阈值法“丝绸之路经济带”股票网络研究分析

    张莉莉 许英

    

    

    

    摘要:“一带一路”是“丝绸之路经济带”和“21世纪海上丝绸之路”的简称,本文的研究对象为“丝绸之路经济带”所经过的十三个省的股票,首先基于阈值法构建股票网络并分析股票网络的统计特征;接着利用中心化指标与证据理论找出网中排名前十的关键节点;最后利用R软件对股票网络进行社团结构划分并给出投资人在投资过程中想要规避投资风险进行分散投资的意见。

    关键词:复杂网络;丝绸之路经济带;中心化指标:社团划分

    0 引言

    近年来复杂网络的兴起使得人们开始关注网络结构的复杂性及其与网络之间的关系。复杂网络的起源可从数学家欧拉解决Konigsberg七桥间题说起,之后两位匈牙利数学家Erdos和Renyi建立随机图理论,这标志着复杂网络的系统性研究;到1998年由Watts和Strogatz发表文章《小世界网络的群体动力行为》,他们首次提出了小世界网络模型,小世界网络是一种具有大的平均路径长度但聚类系数却很小的网络模型;次年学者Barab a si和Albert发表文章《随机网络中的标度的涌现》首次发现了网络的无标度性质。随着复杂网络理论的发展,很多科学领域都被复杂网络理论描述成一个复杂系统网络并揭示网络内部拓扑结构以及动力学性质。股票市场为股票的发行、买卖和流通提供了一个平台,它在经济系统中发挥着举足轻重的作用。上市公司通过发行股票来为企业筹集资金扩大规模;投资者通过灵活的股票市场从而获得较高的利益。“一带一路,是“丝绸之路经济带”和“21世纪海上丝绸之路,的简称,2013年9月和10月由中国国家主席习主席分别提出建设‘新丝绸之路经济带”和"21世纪海上丝绸之路,的战略构想。“丝绸之路經济带”由13个省组成,分别是新疆维吾尔自治区、重庆市、陕西省、甘肃省、宁夏回族自治区、青海省、内蒙古自治区、黑龙江省、吉林省、辽宁省、广西壮族自治区、云南省、西藏自治区。本文以这13个省份2013年9月到2014年9月上市的公司的股票做为研究对象构建复杂网络分析研究。国外的学者Kim等人对S&P500;股票构建了一个无标度加权的复杂网络,发现加权网络中节点的影响程度具有无标度特性[1];Bogirski等以美国股市的价格建立网络并证明其无标度性[2];Mantegna RN以美国标准普尔500股票的价格建立股票网络进行了聚类等级分析[3];Lee K等人基于韩国KOSPI200构建股票网络并统计分析了网络的拓扑性质[4], Capocci等人对标准谱平分法进行改进提出一种新的谱平分算法[5]。国内的学者李耀华从国际市场的角度出发,发现沪市与国际股市网络的相互影响力比较弱[6];王金山利用协整系数建立复杂网络并证明其是无标度特性的小世界网络[7];宋宜飞以两会为例建立迟滞网络分析了重大会议对股票市场的影响[8];陈辉煌等人指出股票市场对随机攻击具有鲁棒性,对恶意破坏具有脆弱性,网络的稳定性是由一些关键点的稳定性决定的[9]姜胜文基于拉普拉斯特征映射算法提出一种方法综合考虑到全部节点的局部特征[10];鲍媛媛结合介数和Katz中心性提出一种新的算法BKC并验证该方法的可行性[11];周克娟对A+H股票进行社团划分,更好地探索A+H股票市场的规律和特点[12];樊瑛等人对纽约证券交易所中的股票与基金股东的投资关系建立了二分网络,发现该网络具有无标度特性和小世界特性[13]。

    1 复杂网络的相关定义介绍

    平均路径长度:网络中的两个节点i和j之间的距离dij定义为连接这两个节点的最短路径上的边数。网络中的任意两个节点之间的距离的最大值称为网络的直径,记为D,即网络的平均路径长度L定义为任意两个节点之间的距离的平均值,即

    其中N为网络的节点数。网络的平均路径长度也称为网络的特征路径长度。平均路径长度表示的是网络的连通性,值越大代表网络中任意两个节点更不容易受影响。

    聚类系数:一般的,假设网络中的一个节点i有ki条边将它和其他节点相连,这ki个节点就称为节点i的邻居,在这ki个节点之间至多有可能有ki(ki-1)/2条边,而这ki个节点之间实际存在的边数Ei和总的可能性的边数ki(ki-1)/2之比就定义为节点i的聚类系数Ci,即

    Ci=2E/(ki(ki-1)) (1-2)

    整个网络的聚类系数C就是节点i的聚类系数Ci的平均值,很明显有0≤C≤1,度与度分布:度是单独节点的属性中简单而又重要的概念,节点i的度凡定义为与该节点连接的其他节点的数目。直观上看,一个节点的度越大就意味着这个节点在某种意义上越“重要”。网络中所有节点i的度凡的平均值称为网络的节点平均度,记为。即:

    网络中节点的度的分布情况可用分布函数P(k)来描述,P(k)表示的是一个随机选定的节点的度恰好为k的概率,近几年经过研究发现许多实际网络的度分布可以用幂律形式P(k)∝k-y来更好的描述。

    小世界模型:Watts和Strogtz于1998年引人小世界网络模型,称为WS小世界模型。另一个研究较多的小世界模型是由Newman和Watts提出的,称为NW小世界模型,该模型是通过用“随机化加边”取代WS小世界模型的构造中的“随机化重连”而得到的。小世界模型的特性:若一个网络与随机网络相比具有较小的平均路径和较大的聚类系数,就可以认为这个网络具有小世界特性[5]。

    无标度网络模型:ER随机图与WS小世界网络模型具有一个共同的特征[1][2]:网络的连接度分布可以近似用Poisson分布来表示,该分布在度平均值妞>处有一峰值,然后呈指数快速递减,因此这类网络也称为均匀网络或指数网络。而有些网络的节点的连接度没有明显的特征长度,称为无标度网络,简称BA模型。无标度网络模型的特征:若一个网络的连接度分布呈幂律分布,就可以认为这个网络具有无标度网络特性。

    度(DC):度值是一个简单的指数,点的度值就是与它直接相连的其他点的个数,如果某点具有很高的度指数,则称该点居于中心,由于度数中心度的测量根据的是与该点直接相连的点数,忽略间接相连的点,因此,所测量出来的中心度可以称为‘局部中心度”。下面是Wasserman和Faust1994年给出的度数中心度的定义:

    

    CD|(ni)=d(ni)(1-4)

    接近中心度(CC):如果一个点与网络中所有其他点的‘距离”都很短,则称该点具有较高的整体中心度(又叫接近中心度)。在图中,这样的点与许多其他点都“接近”。这里是接近中心度的公式:

    其中d是两点之间的距离。紧密度中心度是节点i与网络中其他节点的所有距离的和的倒数。

    中间中心度(BC):如果一个点处于许多其他点对的最短路上,我们就说该点具有较高的中间中心度。中心性概念主要是由费里曼教授提出来的。该概念测量的是一个点在多大程度上位于图中其他点的“中间”。他认为,如果一個行动者处于多对行动者之间,那么他的度数一般较低。这个度数相对来说比较低的点可能起到重要的“中介”作用,因而处于网络的中心。中间中心度的公式为

    其中gjk是节点j和k的最短路的数目,gjk (ni)是包含节点i的j和k的最短路的数目,比值表示点i能够控制此两点的交往的能力,即i处于点j和k之间的最短路上的概率。

    2 股票网络的构建及其统计特征

    2.1 股票网络的建立

    从中国证券监督管理委员会网站中查询到截止2017年1月共有418个上市公司,在网易财经中查询到这418家公司2013年9月-2014年9月的数据。对所选的数据有如下的处理:(1)为确保有足够量的研究对象,将新人市不满两年的股票不作为样本参考;(2)若股票因为节假日或其他特殊原因停盘时间超过10个及以上交易日,该支股票删除;(3)对于停盘时间在10交易日之内收盘价为0的股票,则使用在停盘日前一天的收盘价来填补空缺的数据。最后筛选出来剩余的股票有246个。根据前期大量的学者的实证分析可以知道股票收益率的分布具有尖峰厚尾的特性以及长期记忆效应等特征,所以本文选择收益率建立网络。计算股票的收益率Pi(t)公式如下:

    Pi(t)=1npi(t)-1npi(t-△t)(2-1)

    其中,Pi(t)表示股票i在时间t的收益率,i=1,2,3,... N,△t为时间间隔,在这里我们定义为一天。相关系数ρ是研究变量之间线性相关程度的量。现在根据上面算出的对数收益率计算任意两支股票的皮尔逊相关系数公式如下:

    这里ρij取值范围在[-1,1〕之间,若-1≤ρij<0则表示这两支股票呈负相关关系,若0<ρij≤1则表示这两支股票呈正相关系,若ρij=0则表示两支股票不相关没有关系。

    建立复杂网络的方法有很多如阂值法、最小生成树(MST)等。本文建立网络用闺值法,设定一个阈值θ以每支股票表示为节点,若任意两支股票的相关系数ρij大于或者等于所给定的闺值θ(θ∈[-1,1]),则这两支股票之间有边w相连,否则不相连。具体定义如下:这样可以得到月史票间的相关系数的领接矩阵A=妈卜

    经过excel和spass软件画出股票的相关系数的分布。图1为2012年9月-2014年9月共计246支股票的相关系数的分布,可以看出该段时间的相关系数呈现右偏分布,现在选取阈值θ为0.4875,并删除网络中的孤立节点(股票)共计91个。下面利用R软件进行155支股票的复杂网络的仿真。如图2:

    由图2可以看出在所选的时间段内“丝绸之路经济带”中的13个省(直辖市)节点(股票)的数量分布并不均匀,其中黑龙江、吉林、辽宁、陕西、重庆、新疆、云南和广西节点的数量较多,而西藏、青海、甘肃、内蒙古和宁夏节点的数量较少。这是因为在收集数据时西藏、青海、内蒙古和宁夏这些省份的上市股票数量就小于黑龙江、吉林、辽宁、陕西、重庆、新疆、云南和广西这些省份的上市公司股票数量。

    2.2 网络的静态几何特征及拓扑性质

    利用软件得出股票网络的度分布图3和取双对数下的度分布图4:

    由图3和图4可以看出,在双对数直角坐标系下网络的度分布曲线大致是在一条直线上,这表明股票网络在阈值为0.4875时股票网络中的Hub节点较多,一部分的股票具有较强的影响力。现建立一个节点为155的随机网络与本文所建立的股票网络进行比较发现平均路径长度2.57539小于随机网络,平均路径长度小意味着股票中任意两支股票可以很方便的连接;聚类系数0.4373225大于随机网络,聚类系数大意味着股票价格的波动在某支股票的邻居集团更易传播并影响的程度会变大,由此可以得出股票网络具有小世界特性,本文建立的网络为巨头小世界特性的无标度网络。

    3 股票网络关键节点分析

    度值代表的是节点在网络的重要程度,度值越大则这个节点就越重要;接近中心度代表的是几点在网络中居于中心的程度,接近中心度值越大则这个点就越居于网络的中心在网络中就越重要;节点的中间中心度代表的是网络中所有的最短路径长度之中经过节点的数量之和。节点的中间中心度值越大则这个节点就越有影响力。由于DC测量出来的中心度为局部中心度,BC和CC测量出来的中心度也只是某一方面的没有考虑到全部的信息,所以现在利用证据理论合成一种新的中心化指标同时考虑到网络的局部和整体性。

    证据理论是1967年由Dempster首先提出,由他的学生Shafer于1976年进一步发展起来的也称为Dempster/Shafer证据理论(D-S证据理论)。

    定义3.1(识别框架)DS证据理论中,由互不相容的基本命题(假定)组成的完备集合称为识别框架U,假如某个问题需要被判断,那么针对这个问题可以想到的所有结果用一组有限的非空集合U表示,U={H1,H2…HN}是N个元素的有限集,那么是U所有子集的集合,其中的每一个元素都代表了一种答案。

    定义3.2(质量函数)对于识别框架Ul其质量函数m是一个从幂集2U到[0, 1]的映射,2U中的任意一个

    上式中m(A)指的是命题A的被信任程度,被称为A的mass函数或者质量函数,也可以称为基本信任分配函数。

    D-S合成规则也称为Dempster合成规则,是将两个或两个以上的信任函数进行正交和得出一个新的信程度。A中B都属于集合2U,K是一个归一化常数,且K≠1,否则则认为证据之间是矛盾的。

    用公式(3-1)将两个指标(DC、CC)融合成证据中心化指标(EVC)。表1分别给出了DC、BC、CC和EVC排名前十的股票名称。

    由表1可以看出证据理论合成出来的结果EVC和DC、BC、CC的排名略不同。EVC和三种中心性指标的排名前十的股票基本都一样,只是排名的顺序有所不同。其中BC中的宝钦股份、CC中的*ST建峰都是其他中心性指标中没有的节点。

    4 股票網络的社团结构划分

    随着对网络性质的物理意义和数学特性的深人研究,人们发现许多网络都具有一个共同的性质,即社团结构。整个网络是由若干个“群“或”团”构成的。在这些社团内部,节点之间的联系非常紧密,而社团之间的联系就稀疏得多。社团结构在现实网络中有着重要的意义,例如:在人际关系网络中,社团可能基于职业、性别、年龄等形成;在引用文献网络中,社团可能基于研究领域的不同进行划分;在万维网中,社团可能基于不同主题的主页划分等等。在股票市场投资时,投资理论中的分散风险法则“把鸡蛋放在几个篮子中”是大多数投资者遵循的一条法则,因此,研究股票市场的社团网络结构划分对于规避投资风险有重大的影响。下面介绍社区结构的定量描述---模块化Q函数。

    在探索网络社团结构的过程中,由于描述性定义无法直接应用,所以Girvan和Newman提出一种函数用于定量描述网络中社团结构划分。如果网络被划分为。个社团,那么定义n×n的对称矩阵e,其中eij表示连接社团i中的顶点与社团j中的顶点的边占所有边的比例。这个矩阵的迹Tre=∑ieii,表示网络中所有连接社团内部顶点的边的比例。定义行(或列)加总值ai=∑ieij,这表示所有链接了社团,中的顶点的边的比例。因为eij表示连接社团i中的顶点与社团j中的顶点的边,所以eij=aiaj。这样Q函数可以表达为:

    其中‖e2‖表示矩阵e2的模,即e2中的元素的和。当Q函数数值接近1时表明这种方法划分比较好,而在实际网络中Q函数数值在0.3到0.7之间。

    现利用R中已有的划分方法对股票网络进行划分得出对应的Q值,并找出划分最好的方法,并对其结果进行分析说明。

    由表2可以就看出louvain方法的Q值最大0.33744,所以本文选择louvain对股票网络进行社团结构划分,并画出社团结构图,如图5。

    从图5可以看出,股票网络具有很明显的社团聚类结构。整个网络存在着多个社团,社团内部的关联性较强,各社团之间存在较大的离散性。股票网络明显划分为5个主要的大社团和7个小社团。最大的社团由51个节点组成,主要以制造业为主,还包括信息传输、计算机服务和软件业、文化、体育和娱乐业,电力、燃气及水的生产和供应,住宿和餐饮业,交通运输、仓储和邮政,批发和零售和建筑业。第二大的社团由37个节点组成,主要以房地产业和制造业为主,第三大社团由25个节点组成,主要以采矿业为主。第四大社团由19个节点组成,主要以金融业和制造业为主。第五大社团由11个节点组成,主要以制造业为主。通过分析发现较大的社团结构是以某一行业为主组成的社团,而在较小的社团中包含多个行业不太明显行业的划分。运用复杂网络理论对股票网络分析得到的社区即为法则中的“篮子”,投资者在投资过程中想要规避投资风险建议其进行分散投资。

    参考文献:

    [1]Kim.Hj, Kim.LM, Scale-free Netwok in stock market[J],KorPhysSoc,2002,40:1105-1108.

    [2]Boginski v,Butenko S,Pardalos P M.Statistical analysis of financialnetworks[J].Computational Statistical&Data; Analysis,2005,48(2):431-443.

    [3]Mantegna R N. Hierarchical structure in financial markets[J].TheEuropean Physical Journal B-Condensed Matter and Complex Systems,1999,11(1):193-197.

    [4]Lee K E, Lee J W, Hong B H. Complex networks in。stock market[J].Computer physics communications, 2007, 177(1): 186.

    [5]Capocci A, Servedio V D P, Caldarelli G, et al. Detectingcommunities in large networks[J].Physica A: Statistical Mechanics andits Applications, 2005, 352(2): 669-676.

    [6]李耀华.基于复杂网络结构特征的股市研究[D].2009.

    [7]王金山.复杂网络视角下的沪深300指数研究[D].2016.

    [8]宋宜飞.于复杂网络上海A股证券市场股票网络复杂性分析[D].2016.

    [9]陈辉煌,高岩.基于复杂网络理论的证券市场网抗毁性分析[J].金融理论与实践,2008,(6).

    [10]姜胜文.复杂网络中重要节点的发现[J].研现代计算机,2017,(3)

    [11]鲍媛媛.复杂网络中重要节点挖掘及演化模型分析[D].安徽大学,2016.

    [12]周克娟.A+H股票网络的相关研究[D].江苏大学,2016.

    [13]樊瑛,索丽娜等.复杂网络视角下的NYSE市场投资结构特性研究[J].北京师范大学学报,2008,44(2).