标题 | 基于生存分析方法的我国互联网企业生存期分析 |
范文 | 周庄蝶 周晓东 王云娟 [摘 要]文章利用Kaplan-Meier生存分析法和Cox比例风险模型对我国2014—2017年间244家已倒闭互联网企业和68家尚未倒闭企业进行实证研究,探寻我国互联网企业生存期规律及其可能的影响因素。研究结果表明:我国互联网企业生存期与企业的行业和地区都有显著关系。建议互联网企业应认清所在行业特点,深入研究所在地区网民习惯及地域特点,才能更好地持续经营。 [关键词]互联网企业;Kaplan-Meier生存分析;Cox生存模型 [DOI]10.13939/j.cnki.zgsc.2018.12.070 随着我国互联网的普及和消费者消费习惯的改变,以计算机网络技术为基础,利用网络平台提供服务并获得收入的互联网企业发展迅猛。但一个不争的事实是,随着市场竞争的加剧,大量的互联网企业选择退出甚至被挤出市场。与中国的大部分行业一样,我国的互联网企业也呈现出较高退出率的流转特征(鲍宗客[1])。因此我国互联网企业呈现的一个显著特征是企业的持续经营时期很短。相关研究调查表明,中国企业平均生存时间大约为3.6年,其中中小企业的平均生存时间更短,仅为2.5年,与欧美企业相比相差甚远。除了寿命周期短,我国互联网企业能做强和做大的也是寥寥无几。因此,分析我国互联网企业生存时间的规律及其影响互联网企业生存的因素,并基于此为创业者提供投资借鉴具有重要意义。 关于我国企业的生存期及其影响因素已有不少文献进行了研究。吴利华等[2]对企业生存理论研究进行了比较好的回顾,指出企业能否生存是外部环境因素和企业能力互为作用的结果。根据经济环境的变化,企业生存理论研究的侧重点有所不同。不同的学者从不同的角度构建企业生存理论以及论证影响企业生存的各种因素,如:资源投入、学习能力、规模与影响力(王淼薇等[3]、王峰[4]、林兰等[5]);战略选择(林兰等[5]、戚建梅等[6]、邓子梁等[7]);技术创新(鲍宗客[1]、吴冰[8]);外部融资约束(曹献飞[9])。由于企业生存数据普遍存在删失的特征,因此在上述企业生存理论研究和实证研究中多数引入了生存分析的理论框架。应用生存分析中的生命表分析、Kaplan Meier分析、Cox回归模型描述企业生存过程(曹裕等[10])以及对企业生存过程的影响因素进行分析(陈鸽林等[11])。但上述研究存在的一个问题是其实证多数采用的是工业企业数据(逯宇铎等[12]、王淼薇等[3]、戚建梅等[6]、邓子梁等[7]),其他企业类型数据比较少见。因此这些文献所得结论主要适用于工业企业,对其他类型的企业如互联网企业未必适用。基于互联网企业的生存分析研究除少数工作(如林若飞等[13])外尚不多见。本文弥补这一不足,研究互联网企业的生存期特征以及影响互联网企业生存的因素。我们采用大数据网络爬虫技术获取相关联网企业的数据,采用Kaplan-Meier生存分析法和Cox比例风险模型来探究不同行业、不同地区互联网企业的生存规律及可能存在的影响因素。 1 我国互联网企业数据 1.1 数据及变量 本文采用网络爬虫技术爬取了国家企业信用信息公示系统中2014—2017年互联网企业数据。保留了注册时间在2014—2017年之间的企业数据。共计312家。其中倒闭或退出的244家,68家仍在经营。对于已经倒闭的互联网企业,将注册时间视为企业存活的开始时间,将国家企业信用信息公示系统中显示的注销时间视为企业倒闭的时间点,将注册时间和注销时间之间的天数视为该企业的生存时间;对于尚未倒闭的互联网企业,将注册时间视为企业存活的开始时间,将注册时间到2017年6月18日之间的天数视为企业的生存时间。 根据已有企业生存理论研究文献,考虑到数据的可获取性,在互联网企业生存数据分析中,被解释变量为企业的生存时间及到2017年6月18日止企业的生存状态[0(存活)和1(倒闭)],解释变量包含企业的注册资本和第一股东出资比例两个定量变量以及企业所属行业和地区两个定性变量。其中,根据随机数据爬取的取样结果中频数由高到低,行业编号为:1(互联网+金融)、……、8(互联网+其他);根據截至2016年的全国各省份互联网普及率由高到低,所在地区为:1(北京)、……、29(黑龙江)。数据概览如下表所示。 1.2 统计特征 2 生存分析理论 2.1 生存分析概念 生存分析是研究生存现象和响应时间数据及其统计规律的一门学科。在刻画企业生存时间时通常用以下三个函数来描述:生存函数、概率密度函数和危险率函数。 2.2 Kaplan-Meier生存分析 为得到删失数据下生存函数的估计,Kaplan和Meier(1958)给出了生存函数非参数估计方法——乘积极限法,其优点是对数据的分布没有要求,利用条件概率及概率乘法原理来计算生存率,适用于生存时间数据的原始资料(或未分组资料),可用于小、中或大样本。应用中可以通过绘制Kaplan-Meier曲线比较不同条件下样本生存函数之间有无差异。除此之外,我们也可以采用log-rank test对数秩检验等定量分析不同样本的风险函数有无显著差异。 2.3 Cox比例风险回归模型 为研究企业生存究竟受到哪些因素的影响,考虑到删失数据的存在,通常采用Cox比例风险回归模型。该模型是一种半参数模型,对数据的分布没有要求。其基本形式如下: 该风险比与基准函数无关,且不随时间t变化。这也是Cox模型基本的比例风险(proportional hazards, PH)假定。通常可以通过Schoenfeld残差图进行PH假定的检验。 3 实证分析 3.1 Kaplan-Meier曲线 图1为不同行业的Kaplan-Meier生存曲线图。图1表明不同行业的生存曲线存在很大差异,其中技术创新型互联网企业有比较高的生存率。这与鲍宗客[1] 以《中国工业企业数据库》中工业企业样本的实证结果比较一致。图1中结果还发现互联网金融企业有着比较低的生存率。为验证不同行业企业间生存函数之间的差异是否显著,我们采用对数秩检验方法。检验结果(p=3.7e-06)表明,不同企业之间的差异比较显著。我们采用同样的方法按照地区对所获取的互联网企业进行分组并进行对数秩检验,得到的p值也小于显著性水平0.05,因此不同地区的生存曲线也存在显著差异。 3.2 Cox比例风险模型 基于已有数据构建Cox比例风险模型,得到的参数估计和检验结果如表3所示。 由模型总体的检验p值为2.78×10-5小于显著性水平0.05看出,该Cox风险比例模型显著。由各个变量的检验可以看出,地区和行业的检验p值均小于0.05,这两个变量对模型的影响显著,这与本文前面用对数秩检验得出的结论一致。表3可知拟合的风险模型为: 其中,x1,x2,x3,x4分别表示注册资本(万人民币)、第一股东出资比例、地区和行业。由系数可以解读到,注册资本越多,互联网企业倒闭的概率越低但影响轻微;第一股东出资比例越高,互联网企业倒闭的风险越高;地区编号越大,也就是互联网普及率越低的省份,互联网相关企业倒闭的概率越高;行业编号越大,即在随机爬取过程中频数越大的行业下的互联网企业倒闭的风险越低。 3.3 Cox模型诊断检验 3.3.1 PH假定检验 PH假定可以通过假设检验和Schoenfeld残差图检验,残差应该与时间无关。如果残差与时间有相关趋势,则违反PH假设。残差图上,横轴表示时间,如果残差均匀分布,则表示残差与时间相互独立。根据上节建立的Cox模型进行PH假设检验,结果见表4。 由表4中第4列我们可以发现四个变量的p值都大于0.05,说明四个变量均通过PH检验,而模型的整体p值为0.746也大于0.05,因此模型整体也通过PH检验。图2为Schoenfeld残差图,图中曲线为样本拟合曲线,虚线为样本区间上下2个单位的标准差,由图可以看出标准化Schoenfeld残差在0的周围波动,无明显趋势,因此和PH检验得到的结论一致,各变量满足PH风险假设。 3.3.2 模型异常值识别 Dfbetas是一种通过考察剔去第i个观测值对整体估计的影响来检验回归异常值的方法,Dfbetas残差检验可用来识别模型的异常值。对已建立的Cox模型绘制Dfbetas残差检验图,如图3所示。由于残差均匀地分布在0上下,表明该模型不存在明显的异常点,不足以对模型系数的估计值产生影响。 3.3.3 估计的稳健性 上述实证结果我们采用2014—2017年244家已倒闭互联网企业和68家尚未倒闭企业共计312家数据进行实证分析,为弥补数据不足带来的统计结果的偏差,考察表3中统计结果的稳健性。我们采用非参数bootstrap 方法,通过有放回抽样的方式抽取B=10000次容量为312的bootstrap样本,针对每一组样本估计Cox回归模型的系数。结果见表5。 表5结果表明,模型参数估计与样本选取具有一定的关系,但半数以上的抽样结果生成的Cox模型变量系数与未经Bootstrap抽样的原数据所得拟合模型各变量系数的符号一致,因此可以认为模型是稳健的,上述结论比较可靠。 4 结 论 本文运用Kaplan-Meier法和Cox比例风险回归模型对2014年到2017年以来共计312家互联网企业生存数据进行分析。考虑了可能影响企业生存的四个因素:企业的注册资本、第一股东出资比例、企业所在行业、企业所在地区。研究发现,我国互联网企业的生存率受到企业所在行业和地区的影响比较显著。由Kaplan-Meier法和Cox模型一致得出的结果可以看出,互联网企业的生存存在明显的行业效应。其中信息服务、软件开发、技术开发三大行业的互联网企业生存期最长。近年来,各行各业的信息需求日益猛增,人们对手机的依赖更使得各种手机应用获得巨大市場。因此这三大行业的互联网企业比例以及生存期都名列前茅。而结合房产、汽车等传统行业的互联网企业由于低频消费问题和难以如线下一样建立信任等原因,生存期最短。另外,我国网民的人数和互联网普及率在各个省份大相庭径,这直接导致互联网企业的生存规律有很强的地域差别。以北上广为首的互联网普及率最高也是互联网企业存活期最长的地区,而靠近西部的宁夏、新疆等地区的互联网企业由于互联网用户基数的原因,大多无法长期存活。不同行业在进入“互联网+”时代的转型中优劣有别,行业领导者和其他创业者需要摸清行业特点,实行有效转型;不同地区的互联网企业创业者也应针对本地区网民习惯及地域特点进行研究,采取具体措施弥补网民基数不足的先天劣势,延长企业生存期。王淼薇[3]基于上海市规模以上工业企业的数据时实证了初始规模因素与企业生存之间有着显著的非线性关系。王峰[4]分析第二次全国经济普查数据发现企业规模与企业生存存在正相关。本文以企业的注册资本度量企业初始规模,表3表明企业的初始规模越大、企业的生存概率越大,但统计上不显著。可能的原因:一方面是样本的数据量不够,另一方面从2014年3月1日开始,我国公司注册资本从实缴制改为认缴制,只要在企业经营期限内将上报的注册资金入缴即可,因此国家企业信息系统上显示的注册资本并不是在企业成立初期就一步到位,因此2014年后将注册资金看作企业初始规模并不完全恰当。所以在验证企业的初始规模对企业生存的影响时后期需要更加合适的度量指标。因此今后我们将继续加大样本量的收集,依据企业生存理论研究,引入更多的解释企业生存的变量,为企业或国家相关决策提供参考。 参考文献: [1]鲍宗客.创新行为与中国企业生存风险:一个经验研究[J].财贸经济,2016,37(2). [2]吴利华,刘宾.企业生存理论研究的文献综述与机理分析[J].科技进步与对策,2012,29(1). [3]王淼薇,郝前进.初始规模、生产率与企业生存发展——基于上海市规模以上工业企业的实证研究[J].经济管理,2012(7). [4]王峰.企业规模、效益、年龄和企业生存:理论与再认识[J].未来与发展,2011(7). [5]林兰,尚勇敏.影响我国小微企业生存发展的因素研究——来自上海浦东新区的证据[J].上海经济研究,2016(9). [6]戚建梅,洪俊杰,仪珊珊.多产品出口对企业生存影响的微观数据分析[J].世界经济研究,2017(2). [7]邓子梁,陈岩.外商直接投资对国有企业生存的影响:基于企业异质性的研究[J].世界经济,2013(12). [8]吴冰.生存分析及其应用:以创业研究为例[J].上海交通大学学报:哲学社会科学版,2006,14(3). [9]曹献飞,于诚.外部融资约束加剧了企业生存风险吗?——基于Cox比例风险模型的经验分析[J].中央财经大学学报,2015(9). [10]曹裕,陈晓红,王傅强.中小企业生存分析——以湖南省工业企业为样本[J].科研管理,2011,32(5). [11]陈鸽林,夏洪胜.基于生存分析模型的企业生存问题及其影响因素研究综论[J].江苏商论,2013(3). [12]逯宇铎,于娇,刘海洋,等.出口行为对企业生存时间的强心剂效应研究——来自1999—2008年中国企业面板数据的实证分析[J].经济理论与经济管理,2013(8). [13]林若飞,张惠萍.“互联网+农业”企业生存能力的实证研究[J].福建师范大学学报:哲学社会科学版,2016(1). |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。