网站首页  词典首页

请输入您要查询的论文:

 

标题 基于扎根理论的大数据政策共词网络研究
范文 徐蕾 李庆 肖相泽

〔摘 要〕[目的/意义]本文在已有的关于大数据政策研究基础上,分析当前国内的大数据政策的关注焦点与不足,为后续的政策创新提供参考借鉴。[方法/过程]以9个国家级大数据综合试验区2014年11月至2017年11月出台的政策为研究样本,综合运用扎根理论、词频分析和政策力度测量方法,确立政策关键词的权重,借鉴Ochiia 系数得出关键词共词矩阵,利用可视化分析工具获取共词网络。并综合运用度中心性研究、聚类分析、多维尺度分析和社会网络分析方法研究网络的结点特征与网络结构。[结果/结论]发现现阶段我国大数据试验区政策重点关注金融财税对大数据发展的支持、大数据产业的集聚发展、基本的制度建设和基础设施建设、创新发展应用等方面。对于产业引导基金、核心企业培育、大数据的深层次应用以及外部技术的引进等方面存在不足。
〔关键词〕扎根理论;大数据;政策;共词网络
DOI:10.3969/j.issn.1008-0821.2018.06.023
〔中图分类号〕G301 〔文献标识码〕A 〔文章编号〕1008-0821(2018)06-0157-08
〔Abstract〕[Purpose/Significance]Based on the previous research on big data policy,the paper analyzed the focus and shortcomings of the big data policy in China.And the results provided reference for the subsequent policy innovation.[Method/Process]The paper used 9 National Big Data Comprehensive Experimental Zone issued policies in November 2014 to November 2017 as the research sample,with the grounded theory,word frequency analysis and method of policy strength measure to establish the weight of policy keywords.Then,using the experience of Ochiia coefficient matrix establish a keyword co-word matrix,and using visual analysis tools for common words network.By using the methods of degree centrality,cluster analysis,multidimensional scaling analysis and social network analysis to research the nodes characteristics and network structure.[Result/Conclusion]Found that the policies issued by National Big Data Test Comprehensive Area were focus on financial fiscal support for the development of the big data,the big data industry cluster development,basic system construction and infrastructure construction,application of innovation and development,etc.There were deficiencies in the industry guidance fund,core enterprise cultivation,the deep application of big data and the introduction of external technology.
〔Key words〕grounded theory;big data;policy;co-word network
大数据作为信息资本和数据资源将对经济发展、国家治理、政府决策、公共服务、组织方式和业务流程等产生巨大影响。习近平总书记在中共中央政治局就实施国家大数据战略集体学习时指出“大数据发展日新月异,应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,加强国际数据治理政策儲备和治理规则研究,提出中国方案。”大数据已经成为经济转型发展的重要推动力,中央和地方政府也陆续出台了各项措施,为大数据产业集聚和发展提供有力支撑。
为提升我国在数据资源应用、数据要素流通、大数据产业发展等方面的能力,国务院先后批准了9家国家级大数据综合试验区(以下简称“大数据试验区”或“试验区”),旨在通过政策、组织机构等方面的先行先试,探索大数据应用于创新经验,提升大数据产业发展水平。当前各个试验区主要通过政策引导等方式,学习和探寻大数据产业的发展规律,试图发现适合本地大数据发展的路径。政策引导在大数据发展中的突出作用,使得有必要对政策内容展开详细分析,了解当前试验区政策关注的焦点与热点,探讨大数据政策的发展趋势和发展方向。一方面为试验区下一步政策的制定提供参考,科学谋划大数据发展路径;另一方面,也能够为其他地区大数据产业的发展提供先行先试的政策经验,为提升我国大数据总体实力奠定坚实的理论基础。
1 研究综述
共词分析方法是文献计量学的重要分析工具之一,其内涵是将一组关键词同时出现在文本中作为媒介,建立词汇间的横向联系。一般认为同时出现的次数越多,词汇间的关系越紧密,反之则越疏远。关键词在文本共现的作用下即可形成共词矩阵,运用可视化分析工具将共词矩阵外化成共词网络,通过对网络的分析,即可揭示关键词之间的亲疏关系和网络的结构特征。Darvish等基于WoS的研究文本,运用共词网络方法分析了土耳其纳米技术的应用与扩散[1]。Katsurai认为传统的文本分析无法及时捕捉信息的变动,创新运用了动态共词网络实现对文本特点的全时段追踪[2]。黄萃等以1949-2010年中央政府颁发的4 707件政策文献为分析样本,采用共词分析和聚类分析的研究方法,研究了不同历史时期科技创新政策主题聚焦点的变化[3]。杨煜等通过抓取37份我国生态文明政策文本的高频词汇,运用共词网络分析方法,研究了生态文明政策网络的结构特征[4]。苏志英等运用共词网络分析方法研究了3 183篇第三部门研究论文的关键词,了解近年来我国第三部门的研究热点[5]。现有的研究对于文本关键词的提取普遍存在主观偏见,而通过内容抓取的形式,尽管会根据抓取内容进行进一步的人工筛选,但无法归纳表述相近的词汇,且软件抓取只能以2~3个字组成的词汇,容易忽视概括文本整体的核心词组,造成对文本信息理解失真,共词网络无法表达文本的真实信息。
质性研究的扎根理论最早是由社会学者Galsser和Strauss于1967年提出,是一种运用系统化的程序,针对某一问题或者某一现象来发展并归纳式地引导出数据中包含的发展规律[6]。Charmaz认为扎根理论能够客观、科学地分析文本的主旨要义和结构特征,能够应运于理论建构和文本的深入分析之中[7]。在公共管理研究领域,李贺楼阐明了扎根理论方法对于本土公共管理研究的现实意义,并指出了使用该方法应注意的事项[8]。杜根旺等通过扎根理论分析我国创新政策的演进,分析推动创新政策的结构特征和发展的重点[9]。肖相泽认为通过运用扎根理论的编码过程,能够有效提取政策文本的核心要义,继而能够对文本展开量化分析提供了契机[10]。
词频分析由Laver等率先提出的基于文本的词频测量方法,广泛应用于文本分析之中[11]。陈慧茹等以某一关键词在某篇文本中出现的频次作为其赋权的方式,获取关键词的权重,从而对政策文本展开词频分析[12]。不同政策文本,由于出台的政府层级差别,政策的力度是不同的,由此带来的关键词的重要程度也存在一定的差别。彭纪生等将政策力度划分为5个等级,根据政策的发布机构及政策属性进行打分,以突出政策的差别[13]。
关于大数据政策研究方面,Athey提出运用大数据分析应用于城市规划建设、火灾等预警,能够为有效决策提供支撑[14]。张勇进等通过对比分析美国、澳大利亚等发达国家在大数据产业规划、应用以及管理等方面的政策文本,提出了我国大数据发展借鉴的经验[15];周京艳等对18项国家级大数据政策文本展开分析,研究了政策的合理性与有效性[16];范梓腾等对当前大数据政策进行归类,并探讨了政策的分布占比,提出了相应改进措施[17]。然而,已有关于大数据政策的研究多以定性的规范性论述为主,定量研究也只是对政策文本性质的简单归纳,并没有对文本内容与结构展开深入与详细地分析。本文在扎根理论获取关键词的基础上,运用词频分析获取关键词的权重,通过对政策力度的测量获取各关键词的综合权重,从而建构大数据政策共词网络。综合了质性研究与定性分析,一方面解决了以提取关键词建立网络的中心固定化的弊端,实现了去中心化的目的,保证信息的完整度;另一方面,根据政策力度确定关键词权重,有效实现了对关键词重要程度的精准度量。
2 研究方法与网络构建
2.1 数据来源
鉴于本文主要的研究重点在于考察各家试验区在大数据领域关注的重点与焦点,以及在大数据领域的发展特色。因此,将主要考察试验区内出台的政策,国家级的政策并不在研究范围内。以各试验区政府官方网站公开的大数据政策为基础,初步得到总计107篇政策文本。通过进一步的政策通读,删除其中12篇存在信息不完整以及与大数据无关的政策,最终得到88篇政策文本作为研究对象。
2.2 基于扎根理论的关键词提取
扎根理论认为,只有对文本展开深入的分析研究,才能寻找文本的核心要义[18]。通过仔细精读每一篇政策文本,了解每一篇文本的主旨要义,采用5~10个不等的长短句凝练文本的核心内容,从而保持对文本记录的准确性,避免先入为主的观点影响文本内涵的挖掘。运用开放编码的形式,将长短句与文本内容反复比对和研判,寻找能够反映文本思想的原始概念,共获取628个初始关键词。由于初始关键词层次低、数量较大,且重复性较高。因此,运用归纳的方法,对初始关键词重复或表达意义相近的进行合并整理,获取关键词196个。结合关键词出现的频次,剔除只出现1次的关键词,最终得到97个关键词。在获取初始关键词的同时,需要统计初始关键词每一篇文本中出现的频次,以此确定关键词的权重。由于最终的关键词经过了合并整理,因此,每一个关键词在文本中的权重,都应该是以初始关键词的权重为依据。假定第i篇文本的第n个初始关键词出现了win次,则初始关键词在文本中的权重Qin=win/∑nwin。将每一篇政策文本的初始关键词与合并的关键词一一对应,即可获取每一篇政策文本的每一项关键词的权重。
2.3 政策力度测量
每一篇政策由于实施主體、国家重视程度以及社会关注度等不同,政策文本的重要性存在明显的差别[19]。政策的重要性差别反映在体现政策内容的关键词权重方面也应该有所不同。本文根据已有研究经验,针对政策力度的差别,设定政策测量评价指标[12-13],对政策的力度实施测量。依据政策发布的主体不同,将政策分为省(直辖市)级、市级、县区级等3个等级,对3个不同等级的政策进行测量;依据政策在国家层面以及社会的关注程度,将政策划分为首批示范区政策、第二批示范区政策,对不同批次的示范区政策赋权,综合衡量政策的力度。
3 结果分析
3.1 度中心性分析
度中心性是衡量网络中结点重要程度的关键指标,结点在网络中的度中心性越高,说明结点在网络中越重要[20]。对于无向网络中,结点的绝对度中心性是各个结点连结的数目之和,这样的测算结果,度中心性大小受网络规模大小影响较重[20]。因此,为了消除网络规模对度中心性的影响,将结点连结的数字之和除以结点的最大可能连结数,即可获得结点的相对中心度。同样的,对于加权网络来说,绝对中心度为结点连结的权重之和,其相对中心度为权重之和与最大可能的中心度的比值。限于篇幅,本文将列出度中心性值前10位的关键词。表4中可以发现,大数据在网络中的重要性远远高于其他关键词,开放共享、数据安全以及基础设施建设等关键词在网络中的重要程度大致相当。
3.2 聚类分析
聚类分析是将研究样本集合划分为由类似的对象建构的多个簇的研究方法[22]。多个研究对象根据自身的数据状态,自动集聚,形成一类,不必进行事先的人为设定。每一类集合的研究对象存在相似的特性,每一类集合之间存在一定的差异。通过对大数据试验区政策关键词共词网络的相异矩阵进行分层聚类分析,得到聚类分析的树状图(篇幅有限,树状图从略)。结合研究内容,将10设定为聚类分析的划分距离,获得6类关键词集聚集合。根据关键词的内涵,将6类集合命名为:制度建设、产业集聚、保障机制、科研创新投入、发展应用和外部环境支撑。
3.3 多维尺度分析
不同于聚类分析把样本的特征作为分类标准,多维尺度分析是运用降维的思路,对研究樣本进行分类分析,了解样本之间的内部关系,同时又保留样本间原始关系的统计分析方法[23]。研究样本以集聚的形式,呈现在二维图谱中,具体如图1所示。同样的,根据关键词的内涵与外延,以第一象限为起点,顺时针将关键词的4个集合依次归纳为:外部支持与规划、发展应用、制度化管理和大数据产业培育与基础设施建设。整体而言,大数据政策的关键词在图谱中的分布比较均匀,只有大数据处于图谱相对居中的位置,且并不明显,其他各关键词与中心位置的距离相近。说明了大数据是政策的核心与关键,其他关键词在政策中的作用相似,没有太明显的差别。
3.4 共词网络的可视化分析
网络是复杂社会的高度抽象,通过对网络的形成及演化过程的研究,能够最大程度上还原现实社会各种复杂状态[24]。社会网络分析是对参与者之间的交互联系分析为核心的一种研究范式,能够将抽象关系具象化。通过使用社会网络分析软件Ucinet和其附属的制图软件Netdraw,基于核心关键词共现矩阵绘制出国家级大数据综合试验区大数据政策的社会网络图谱(如图2所示)。通过研究发现,大数据政策关键词共词网络的整体密度为0.642,加权网络密度为0.501。表明了网络比较密集,结点间的关系比较密切。
聚类分析、多维尺度分析和社会网络分析由于自身的局限性,在分析结点特征和网络结构描述的过程中或多或少存在一些不足。聚类分析无法反映结点在网络中的地位,多维尺度分析无法描述结点间的关系,社会网络分析尽管通过度中心性和网络密度研究,能够从整体上了解网络架构,发现结点在网络中的重要性。然而,无法描绘结点在网络中的集聚效果,对结点的属性特征无法展开深入分析。因此,综合三种分析方法,在关键词社会网络图谱的基础上,以结点大小表示度中心性。通过对核心关键词进行主观的再次判别和划分主题类别,将大数据政策共词网络的概貌概括为“一个核心,六大主题”。一个核心是围绕大数据形成的以数据采集、数据安全、云计算等4大关键词敏感地带,六大主题依据关键词的内涵和权重的高低,从核心敏感地带左上方开始逆时针方向依次为1)外部支撑;2)基本要素建设;3)大数据的应用领域;4)制度保障建设;5)促进举措;6)产业集聚。
3.5 大数据政策关键词共词网络分析
3.5.1 外部支撑
试验区发展大数据产业离不开必要的外部支持,包括一系列的扶持政策、必要的政府支持、金融扶持、财政补助、引导基金等。这其中,当前试验区大数据政策主要关注的焦点在于寻求政府的支持、金融扶持、财政资助补助以及税收优惠,在泛金融领域包括引导基金的设立等方面还存在一定的欠缺。因此,对于试验区而言,一方面大数据产业的发展离不开资金的支持,需要进一步扩大金融的扶持力度;另一方面,在推动融资发展的过程中应该要进一步强化引导基金、融资担保等在促进大数据产业发展过程中的重要作用。
3.5.2 基本要素建设
图3中,当前制定的政策中关于大数据的基本要素建设,除了必要的基础设施外,尤其强调对于大数据人才的建设。大数据行业的特殊性使得其对人才的要求,特别是高层次人才的需要往往高于其他行业。在试验区的发展中,多数试验区都提出了要强化人才的培育与引进,打造大数据人才集聚高地。同时,与已有的产业示范区不同,大数据试验区还比较重视对大数据文化的培育与建设工作,究其原因,笔者认为,大数据产业的发展打破了已有的社会认知和传统的治理模式,特别是在政务管理领域,对现有的政府管理模式和组织架构产生了巨大地冲击。因此,对于发展大数据产业来说,有必要在全社会形成数据化思维与行为范式,为大数据发展提供思想保障。
3.5.3 大数据的应用领域
众所周知,大数据以其客观性、大样本和预测性强等特点,能够应用于社会发展的各个领域。由于我国的大数据研究起步晚,大数据的应用尚处于起步阶段。目前试验区在税收治理、金融服务、农业扶贫、医疗、政务活动、交通等大数据应用较为广泛的领域展开了先行先试的探索,就相关内容出台了一系列的政策法规保障数据应用的顺利推进,并取得了一定的成效。从度中心性结果来看,现阶段大数据实验区的大数据应用主要聚焦在政务应用方面。从实际的发展效果来说,当前各试验区虽然强化了数据的应用,也提出了在大致的发展方向,但是对于具体操作方面尚未有明确的发展思路和经验。此外,在大数据应用的深层次领域,如跨行业的数据交叉等方面还有待提升。
3.5.4 制度保障建设
新兴产业的发展离不开必要的制度支撑,大数据行业的产权界定不清晰、隐私保护不健全等方面的困境导致数据的使用、交易都存在制度障碍。因此,试验区制定了相关的利益保护机制和激励机制,并针对试验区的使命,建立了容错机制,建构一整套完善的制度保障体系,保障数据的应用和交易的顺利进行。根据图中结点的大小可以看出,当前政策主要关注宏观的管理体制和远期的规划,还没有根据不同产业领域的应用有针对性的提出专门的管理方案。
3.5.5 促进举措
该类主题中要素整合、产学研合作、考核评估、招商引资等核心关键词尤其受试验区政策关注。对于多数试验区来说,大数据的发展基础较为薄弱,想要在快速提升产业的发展水平,一方面需要借助外在力量,通过招商引资的方式,引进行业内具有一定竞争力的机构,快速与先进水平接轨;另一方面需要提升内在实力,积极拓展产学研合作,促进大数据科技成果转化和技术水平提升。试验区也认识到适当的考核评估也能够保证大数据产业发展方向和目标不发生偏转。当然,也可以看到,试验区对于大数据技术的创新和引进力度还不够,借助外力发展大数据产业、提升大数据的科技含量和技术水平的认知需要加强,以及相关的制度壁垒还需要破除。
3.5.6 产业集聚
多数试验区在政策中明确提出了要建立大数据产业园、特色小镇、示范区等产业集聚区,从而实现产业升级转型和经济水平提升,并最终实现创新型城市建设的目的。同时,当前试验区的政策也希望通过要素整合的方式,建构完整的大数据产业链,实现产业从实体经济向数字经济转变。另外,在政策共词网络的研究中发现,试验区的产业集聚政策侧重于产业的集聚效应和示范引领作用,在产业与现有发展基础的结合,核心企业的培育等方面亟待加强。
4 研究结论
本文在已有研究的基础上,综合运用扎根理论、词频分析和政策力度测量方法,以9家大数据试验区2014年11月至2017年11月出台的政策为研究样本,通过可视化分析工具得出共词网络。并综合运用聚类分析、多维尺度分析和社会网络分析方法研究网络的结点特征与网络结构,得出了一些大数据政策创新的重要结论。一是大数据实验区的发展注重金融财税领域的支持和基础设施的建设,但同时,外部的支撑体系和基础设施建设不够完善,当前我国大数据发展还处于建设早期,还没有形成数字化思维体系和文化氛围;二是开始将大数据的应用范围聚焦在政务、金融、扶贫等领域,但是这些应用只是方向性的,并没有出台较为实际的政策,也没有提出相应发展领域的制度保障,政策落地和大数据的具体应用推广存在实操性和细则性障碍;三是大数据发展充分借鉴已有产业发展的经验,利用外来技术和资金,建立区域联动机制集聚发展。充分发挥我国在互联网行业的后发优势,推动企业自主创新。
本文运用多种方法对国家大数据试验区政策关键词的共词网络展开分析,尝试用大数据的方法研究大数据政策,了解政策的发展现状和不足,从而能够为政策创新提供经验借鉴。当然,由于主客观因素的影响,本文的研究还存在一定的不足和改进之处。今后的研究中可以尝试从政策转移的视角,研究政策转移的路径与网络,探讨政策的重要性和创新性;亦或以政策文本为考察对象,结合各地区大数据产业的发展实际,研究政策的措施和目标的协同效应,以及政策的实施效果等。
参考文献
[1]Darvish H,Tonta Y.The Network Structure of Nanotechnology Research Output of Turkey:A Co-authorship and Co-word Analysis Study[C]// Issi 2015 Istanbul:,International Society of Scientometrics and Informetrics Conference,2015.
[2]Katsurai M.Bursty Research Topic Detection from Scholarly Data Using Dynamic Co-word Networks:A Preliminary Investigation[C]// IEEE,International Conference on Big Data Analysis.IEEE,2017:115-119.
[3]黃萃,赵培强,李江.基于共词分析的中国科技创新政策变迁量化分析[J].中国行政管理,2015,(9):115-122.
[4]杨煜,张宗庆.基于共词分析的中国生态文明政策网络研究[J].北京理工大学学报:社会科学版,2016,18(5):10-15.
[5]苏志英,冯锋,肖相泽.中国语境下第三部门研究的可视化分析——基于共词网络视角[J].公共管理与政策评论,2015,4(2):82-91.
[6]Glaser B G,Holton J.Remodeling Grounded Theory[J].Historical Social Research/Historis che Social for schung.Supplement,2007:47-68.
[7]Charmaz K.Constructing Grounded Theory:A Practical Guide Through Qualitative Analysis[J].International Journal of Qualitative Studies on Health and Well-Being,2014,1(3):378-380.
[8]李贺楼.扎根理论方法与国内公共管理研究[J].中国行政管理,2015,(11):76-81.
[9]杜根旺,汪涛.中国创新政策的演进——基于扎根理论[J].技术经济,2015,34(7):1-4.
[10]肖相泽.国家自主创新示范区科技创新“政策—绩效—评价”研究[D].合肥:中国科学技术大学,2016:25-68.
[11]Laver,Michael,Benoit,Kenneth,Garry,John.Extracting Policy Positions from Political Texts Using Words as Data[J].The American Political Science Review,2003,97(2):311-331.
[12]陈慧茹,肖相泽,冯锋.科技创新政策加权共词网络研究——基于扎根理论与政策测量[J].科学学研究,2016,34(12):1769-1776.
[13]彭纪生,仲为国,孙文祥.政策测量、政策协同演变与经济绩效:基于创新政策的实证研究[J].管理世界,2008,(9):25-36.
[14]Athey S.Beyond Prediction:Using Big Data for Policy Problems[J].Science,2017,355(6324):483.
[15]张勇进,王璟璇.主要发达国家大数据政策比较研究[J].中国行政管理,2014,(12):113-117.
[16]周京艳,张惠娜,黄裕荣.政策工具视角下我国大数据政策的文本量化分析[J].情报探索,2016,(12):7-10.
[17]范梓腾、谭海波.地方政府大数据发展政策的文献量化研究——基于政策“目标—工具”匹配的视角[J].中国行政管理,2017,(12):46-53.
[18]Goulding C.Grounded Theory:A Practical Guide for Management,Business and Market Researchers[M].California:Sage Publications,Inc,2002:347-378.
[19]王莉方,周华丽.我国创业教育政策的价值结构探析——基于政策文本分析的视角[J].四川理工學院学报:社会科学版,2014,(4):29-31.
[20]Albert R,Barabasi A L.Statistical Mechanics of Complex Networks[J].Reviews of Modem Physics,2002,74(1):47.
[21]Barabasi A L,Albert R.Emergence of Scaling in Random Networks[J].Science,1999,286(5439):509-512.
[22]Galimberti G,Manisi A,Soffritti G.Modelling the Role of Variables in Model-Based Cluster Analysis[J].Statistics & Computing,2017:1-25.
[23]Dahlem N W,Zimet G D,Walker R R.The Multidimensional Scale of Perceived Social Support:a confirmation study.[J].Journal of Clinical Psychology,1991,47(6):756-761.
[24]李庆.科技创新政策的转移、转移网络和竞争力研究[D].合肥:中国科学技术大学,2017:55-60.
(责任编辑:孙国雷)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/3/24 0:06:23