标题 | “一带一路”沿线国家舆情大数据平台建设研究 |
范文 | 秦昕婕 刘昊 摘 要:“一带一路”自提出以后,四梁八柱框架已基本成型,其工笔的细描需要对沿线国家国情民意有准确的把握。基于大数据的普及和人类社会数字化的推动,技术与数据成为“一带一路”的重要驱动力之一。“一带一路”沿线国家舆情大数据平台建设亟需且必要。强调多语种采集,使用云数据管理,规范编码标准,立体化标注数据,灵活架构资源,设计快捷检索,面向决策分析、挖掘数据价值,是“一带一路”舆情大数据平台建设的核心维度。 关键词:一带一路;沿线国家;舆情;大数据平台 中图分类号:F125.4;F49;G206? ? ? 文献标志码:A? ? ? 文章编号:1673-291X(2020)29-0142-03 “一带一路”倡议提出以来,其建设取得了令人瞩目的成就。截至2019年7月,136个国家和30个国际组织与中国签署了195份政府间合作协议,商签范围由亚欧地区延伸至非洲、拉美、南太、西欧等相关国家[1]。沿线国家在经济、贸易、文化交流等各个领域全面展开深度合作,显然,倡议落地为建设,蓝图变成路线图,“一带一路”的四梁八柱框架已基本成型。随着“一带一路”建设从写意的框架搭建转至工笔的细描深入,沿线国家文化的差异,意见的多元化、利益诉求的差异等矛盾与错位会被凸显。因此,加强对沿线国家的历史、文化、经济、政治等领域的了解,推动沿线国家的信息交流,未雨绸缪规避或疏导潜在的障碍,推动沿线国家共赢,是“一带一路”倡议亟待解决的问题。打造“一带一路”舆情数据库平台,对沿线国家政治变化、经济态势、政策法规、突发事件等国情民意进行采集整理和分析。基于海量多源的数据中挖掘具有决策价值的知识,进而以智能辅助决策,对“一带一路”持续良性展开与核心诉求实现有重要的现实价值。 一、大数据对“一带一路”驱动意义 “一带一路”地缘关系复杂,沿线国家民族习俗差异巨大,文化资源千差万别,经济发展水平参差不齐,因此对沿线国家舆情信息及时准确的洞察,是中国作为“一带一路”倡议发起国,确保宏观决策科学的基础。只有掌握沿线国家第一手的社情民意,才能有针对性优化“一带一路”倡议的话语表达,规避舆情风险,保障实体合作顺利开展。“一带一路”沿线65个国家,其每时每刻都在产生着海量的信息,对其分析化繁为简,提取有价值的知识,是大数据的优势和特长。根据维克托·迈尔-舍恩伯格的观点,大数据的核心特征是对大量的、高速的、多样的、低价值密度和真实性的全数据进行处理。存储在“一带一路”沿线国家媒体网站和社交媒体上的“一带一路”倡议相关的新闻、评论及用户行为数据,为应用大数据的分析提供了数据可能。大数据平台分析不但可以实现理论驱动在大数据集上检验,更可以实现基于数据潜在模式的识别,进而优化或创新理论。碎片化的数据提取和大数据分析,不但能准确识别“一带一路”沿线国家国情,更可以准确体现其民意。基于文化的多样性,“一带一路”沿线国家的公众意见在数据上呈现为复杂性、隐蔽性、动态性等特点,关键舆情往往蕴含在海量数据的隐性邻域中。大数据分析不仅解决数据大容量的问题,更关注于“海量数据”和“规模非常大”特点之外的价值稀疏问题,即隐性价值挖掘[2]。应用大数据平台可以实现数据隐性邻域的挖掘,剥离噪声,将数据的稀疏价值提炼为有效知识。基于大数据的支持,根据沿线国家的民意诉求,优化“一带一路”倡议的话语表达,可以有效推动“民心相通”工程。因此“一带一路”舆情大数据平台的建设,将有助于构建“一带一路”清朗国际舆论新空间。“一带一路”数据资源归集是实现知己知彼、促进合作交流的有力保证,也是建立“一带一路”信息服务体系的基石[3]。 二、“一带一路”数据服务建设现状 今天的信息生态正在整体性地从“信息”向“讯息”,乃至向“数据”滑动。信息有价,并且演变成了贵金属,发挥战略资源功能[4]。新媒体和社交媒体借助大数据和人工智能正变革人类信息传递与分发的生态。基于大数据技术对“一带一路”沿线国家所产生的相关数据进行分析和处理,从中提取对国际传播有指导意义的信息和知识,对“一带一路”的外宣有重要的现实意义。“一带一路”相关信息不少,但多是不连续、不系统、碎片化的,缺乏关联性的信息,亟须借助数据挖掘从零碎的低价值的数据提取高价值的知识[5]。国内与“一带一路”相关专题数据库和特色数据库也不断开发与建设,表1列出了我国主要的“一带一路”数据平台及主要特征。从表1来看,现有的数据库建设重点关注的是沿线国家的经济、政策、贸易、旅游等宏观及概况型数据,以及学者专家从各层面各领域各行业对“一带一路”的研究成果。现有的数据建设重视经济、政策等“硬”数据,忽视了文化、媒体等“软”数据。但随着“一带一路”深入开展,已有的数据体系并不能满足“一带一路”支持服务,亟须构建多语种、跨学科、多来源的“一带一路”信息资源体系,全方位开展“一带一路”沿线国家官方一手资源的收集和整理,进一步加强沿线国家媒体的新闻舆情资源建设[6]。国之交在于民心相通,民心相通的基础是交往双方信息的准确编解码,深度的了解是有效沟通的基础,所以构建“一带一路”大数据舆情平台势在必行。 三、“一带一路”大数据平台建设策略 (一)多语种采集,云数据管理 “一带一路”沿线国家数据采集要覆盖目标国家的政府网站、媒体网站、论坛、社交媒体等信息承载平台,实现舆情信息的最大化覆盖。信息采集不但要覆盖信息内容本身,更要基于信息承载媒体平台的特性进行结构化信息的提取,比如新闻页面的评论、访问量、社交媒体内容的评论、回复、转发等。设计采集器实现目标信息采集的智能化和自动化,并使用人工核检的方式提升数据的质量。积累热点关键词形成“一带一路”热点词词库并循环更新与优化。“一带一路”沿线65个国家中有 53 种官方语言,属于九大语系,语言状况复杂[7]。数据采集的语言覆盖目标主流官方语言,数据采集的难度通过小语种人才的培养和机器翻译等技术手段解决。在自有采集的数据基础上,借助第三方数据平台,比如Factiva新闻数据平台、GDELT全球新闻动态数据库,进行数据整合和交叉比对,提升数据的质量和覆盖面。数据采集根据目标国家的信源的结构变化动态调整。采集的數据的存储专门考虑可扩充性和升级能力,持续的对大数据平台后期维护,提升数据的累计价值。针对采集的半结构化或非结构化的文本数据,基于数据的特点和数据存储的扩展性,放弃使用传统的关系数据存储,选择云数据的方式,提升数据的并发访问能力和高可扩展性。 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。