从“源”探寻数据新闻发展之道
成竹雅 楼旭东
摘 要 数据是数据新闻的生命之源,数据的采集和挖掘直接影响数据新闻的内容价值体现,而新闻媒体在数据挖掘方面尚处于尝试探索阶段。文章从“数据源”着手,探寻制约数据新闻发展的因素,从数据外包、数据库、数据众筹三个方面探索数据新闻发展的解困之道。
关键词 数据新闻;数据源;外包;数据库;众筹
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2018)03-0046-02
数据新闻基于大数据而发展,目前尚未成熟。数据新闻以数据为核心,以数据挖掘、处理和可视化表现为手段,以将受众关注和需要的新闻信息用恰当的故事形式呈现为落脚点,满足受众“穷尽数据”和“一目了然”的阅读需求,进而引发受众的自主理解和思考。
“数据源”即数据新闻的信息来源,是数据挖掘的基础,更是数据新闻生产过程的源头。《2017中国媒体人数据使用报告》显示,95%以上的媒体人/自媒体人认为数据对于新闻创作重要,他们认为数据能够使媒体通过掌握读者信息实现精准选题和传播,能够丰富新闻内容并有效提升新闻内容
质量。
由此可见,数据信息是数据新闻的生命之源,制约数据新闻发展的源头因素便是数据信息缺乏。目前数据新闻的“数据源”主要有政府相关部门、企业/公司发布信息,专业信息资讯平台、网络公开信息、学术科研机构提供的研究报告所占比例相对较少,对数据的收集也更多沿袭传统方式。然而,有限的数据资源和传统的数据挖掘并不足以满足数据内容至上的数据新闻创作。
1 把握“数据源”存在的四大问题
第一,“数据源”较为单一,覆盖范围有限。英国的数据开放程度在全世界屈指可数,从公共交通信息到国家人文地理,从立法信息到政府预算、环境污染,各类信息只要能够公开的尽量毫无保留的向公众开放,甚至制定相关法规对信息开放加以保护,设立开放数据研究院(ODI),为更多有需要的人提供开发数据的基础和便利。除此之外,英国的媒体内部会形成一个系统的数据库,并与相关的科研机构、金融机构建立信息合作关系,确保新闻数据的完整和可靠,这也促进了媒体对数据的进一步深挖和报道。
我国信息公开和信息保密之間长期存在难以调和的矛盾,信息的开放性和完整度相比于发达国家都比较低,尤其是与政府相关的信息更为缺失。随着互联网信息产业的发展,近两年我国国家统计局正在尝试开放政府数据,各地政府网站也开设相关政务信息公开页面,但公开的数据是经过筛选和整理发布,数据开放的深度和广度有待拓展,层层限制制约着新闻报道的深度和广度,影响政经类数据新闻的生产和传播效果。国内数据新闻来源多来自媒体间素材引用、第三方信息服务商、公司企业所提供的数据,这类数据均为收集简单方便、不需要深入发掘、成本较低的二手数据,但时效性差,数据的准确性和客观性无法保证。
由此来看,国内的数据新闻发展仍受限于数据信息制度上的缺失和对原始数据的自我开发,数据新闻的数据也绝不能称之为海量,所呈现处的数据新闻的广度和深度也有待提升。
第二,数据收集自主能力不足。Excel是目前媒体人最普遍使用的数据工具,对于SQL、SPSS/SAS、Python和R语言等专业数据工具的使用普遍较少。即使面对大规模、大体量的数据信息,传统的数据技能也不足以实现充分挖掘和分析处理。
目前中央电视台、新华网、财新等不少媒体都在尝试数据新闻,但是建立专门的数据新闻团队从事数据新闻生产的媒体却寥寥无几。事实上在数据新闻团队中,相比于传统的记者、编辑,程序员的作用更加不容忽视。当前我国数据新闻从业者多为设计专业出身,对于数据的敏感度、数据中新闻的挖掘及运用数据驱动讲故事的能力相对较弱,直接制约数据新闻的发展。
第三,与专业数据挖掘团队的合作较弱。专业的数据挖掘公司与媒体间的合作较少,大多数的媒体基于内部的数据收集中心获取相关信息和数据的收集,多以团队分工形式完成,发展较大的媒体会设置专门信息搜集部门,但总体来说数据量少、数据来源有限,对数据的挖掘和分析深度欠缺,对国外相关数据获取能力低。目前国内大数据公司层出不穷,在数据挖掘和人工智能方面也有了长足发展,针对不同行业、不同用户可以提供定制化的数据解决方案,其主要客户集中于企业、政府、金融投资等全球行业用户。而与新闻媒体的合作尚处于尝试阶段,由于没有成熟可行的合作模式,再加媒体对于信息数据需求不明确、不精准,导致企业面对庞大的数据库无法有效筛选和提供服务。
第四,缺乏与社会化媒体的融合。在当前的传播格局中,社会化媒体异军突起,相对于电视、报纸等传统媒体,社会化媒体的受欢迎程度屡创新高,受众作为新生力量借社会化媒体平台涌入传播大潮,在很大程度上监督、制约媒体的新闻活动。财新网和FT中文网利用新浪微博等社交媒体发起数据新闻话题讨论,以话题的形式扩大数据新闻的传播影响范围,但是这样的融合仅仅停留在低层次的“合作、流动”的层面上,没有充分利用受众的信息资源,未形成社会化媒体融合时代的新型商业模式,仍以原有的新闻模式生产新形态新闻报道。
事实上数据新闻本身兼具经济价值和社会价值,从数据的收集整理、加工到可视化呈现、故事阐述等一系列的复杂、有深度的生产活动都可借鉴国外有偿新闻的高水平的新闻制作和数据处理服务模式,结合我国现有的经济体制和媒体环境,创新数据新闻发展商业模式,推动数据新闻在社会化媒体时代的精准营销和推广,为受众提供更多的信息服务,实现媒体与受众的信息双赢。
2 从“源”探索解困之道
开放、系统、完整的数据平台对数据新闻的发展至关重要,但完整的数据库建设并非一朝一夕就能实现,因此可以通过以下3个方面逐步形成。
第一,尝试“数据”众筹。互联网和移动终端技术的繁荣为社交网络媒体的发展提供了物质基础,微博、微信、微视频、论坛等凭借愈发强大的影响力和传播力聚集受众,社会化网络信息传播的自发性和互动性优势凸显,在满足网民信息需求的同时赋予网民更大的自主权,进而网罗大量一手数据信息,也可以说社交网络媒体产生的数据信息完成了“从群众中来”这一环节,对这些数据加以应用即是“到群众中去”。国内数据新闻媒体在这一方面的认识和实践明显滞后。
西蒙·羅杰斯曾言,Twitter已然成为新闻工作者的“理想工具”。目前数据挖掘技术的发展已经使社交网络产生的海量无序数据信息为媒体所用成为可能,并通过对分析数据发现新闻价值。2016年美国大选期间,《卫报》《金融时报》等多家媒体通过抓取和分析Twiiter上的信息预测大选结果,通过分析特朗普个人Twitter研究其政治倾向和态度,观察其与中国外交的观点和立场。荣获首届数据新闻奖的“骚乱中的谣言”基于对260万条Twitter信息的分析,以热力图的形式清晰展示谣言的传播路径,并揭示经济因素是引发社会骚动的真正原因。由此可见,社交网络所产生的庞大数据是目前可为新闻媒体利用的最直接可行的信息宝藏,充分挖掘和利用将有助于推动我国数据新闻的发展。
第二,创新数据新闻外包链模式。从国内媒体数据新闻来源来看,尽管数据来源渠道多、范围广,实际数据来源类型相对集中,多为他方提供的现有数据,网络用户数据占比较低,数据信息有限。事实上,中译语通、Palantir等国内外专业的数据挖掘公司拥有相对完整的数据生态系统,其掌握的数据体量庞大,可针对不同用户定制信息服务,若尝试将数据信息搜集、处理等工作外包给专业团队,形成合理的合作模式,将会推动数据新闻的发展。
第三,逐步建成数据库网络。大数据产业的快速发展将全球开放的数据聚合形成丰富的数据信息资源,这对于数据新闻的发展是一个重要的契机。从目前国内数据新闻报道所涉及的数据规模和体量来看,绝大多数都是低量级的结构化数据,将第三方结构化数据以可视化的形式呈现[1]。也就是说目前国内数据新闻并没有实现基于海量数据挖掘之上的信息处理,可视化呈现方面仅仅是将结构化数据进行简单的信息图式的处理,尚处于数据新闻生产的起步阶段。由此可见数据新闻的基础在于获取数据,因此数据库的建立尤为重要。从数据新闻在国内兴起到现在已有5年左右,各家媒体的新闻报道所呈现的数据都是有价值的资源,因此对现有新闻数据进行系统的整理和编制将会形成媒体内部的小型数据库,链接常用的数据来源,形成流动的数据信息平台,再以通过建立媒体之间的数据共享和流动,初步建立数据库网络,实现数据信息的共享,有利于媒体间的共赢发展。
3 结束语
随着数据技术的迅猛发展,数据新闻生产也需要在新的发展环境下寻求技术的支撑,尤其是从“新闻源”来拓宽数据新闻的信息覆盖范围,提升数据信息挖掘和处理的水平,有利于丰富数据新闻内容,拓宽数据新闻发展的道路。
参考文献
[1]沈甜.“数据新闻”在我国新媒体平台的实践与发展现状探究[D].兰州:兰州大学,2016.
摘 要 数据是数据新闻的生命之源,数据的采集和挖掘直接影响数据新闻的内容价值体现,而新闻媒体在数据挖掘方面尚处于尝试探索阶段。文章从“数据源”着手,探寻制约数据新闻发展的因素,从数据外包、数据库、数据众筹三个方面探索数据新闻发展的解困之道。
关键词 数据新闻;数据源;外包;数据库;众筹
中图分类号 G2 文献标识码 A 文章编号 2096-0360(2018)03-0046-02
数据新闻基于大数据而发展,目前尚未成熟。数据新闻以数据为核心,以数据挖掘、处理和可视化表现为手段,以将受众关注和需要的新闻信息用恰当的故事形式呈现为落脚点,满足受众“穷尽数据”和“一目了然”的阅读需求,进而引发受众的自主理解和思考。
“数据源”即数据新闻的信息来源,是数据挖掘的基础,更是数据新闻生产过程的源头。《2017中国媒体人数据使用报告》显示,95%以上的媒体人/自媒体人认为数据对于新闻创作重要,他们认为数据能够使媒体通过掌握读者信息实现精准选题和传播,能够丰富新闻内容并有效提升新闻内容
质量。
由此可见,数据信息是数据新闻的生命之源,制约数据新闻发展的源头因素便是数据信息缺乏。目前数据新闻的“数据源”主要有政府相关部门、企业/公司发布信息,专业信息资讯平台、网络公开信息、学术科研机构提供的研究报告所占比例相对较少,对数据的收集也更多沿袭传统方式。然而,有限的数据资源和传统的数据挖掘并不足以满足数据内容至上的数据新闻创作。
1 把握“数据源”存在的四大问题
第一,“数据源”较为单一,覆盖范围有限。英国的数据开放程度在全世界屈指可数,从公共交通信息到国家人文地理,从立法信息到政府预算、环境污染,各类信息只要能够公开的尽量毫无保留的向公众开放,甚至制定相关法规对信息开放加以保护,设立开放数据研究院(ODI),为更多有需要的人提供开发数据的基础和便利。除此之外,英国的媒体内部会形成一个系统的数据库,并与相关的科研机构、金融机构建立信息合作关系,确保新闻数据的完整和可靠,这也促进了媒体对数据的进一步深挖和报道。
我国信息公开和信息保密之間长期存在难以调和的矛盾,信息的开放性和完整度相比于发达国家都比较低,尤其是与政府相关的信息更为缺失。随着互联网信息产业的发展,近两年我国国家统计局正在尝试开放政府数据,各地政府网站也开设相关政务信息公开页面,但公开的数据是经过筛选和整理发布,数据开放的深度和广度有待拓展,层层限制制约着新闻报道的深度和广度,影响政经类数据新闻的生产和传播效果。国内数据新闻来源多来自媒体间素材引用、第三方信息服务商、公司企业所提供的数据,这类数据均为收集简单方便、不需要深入发掘、成本较低的二手数据,但时效性差,数据的准确性和客观性无法保证。
由此来看,国内的数据新闻发展仍受限于数据信息制度上的缺失和对原始数据的自我开发,数据新闻的数据也绝不能称之为海量,所呈现处的数据新闻的广度和深度也有待提升。
第二,数据收集自主能力不足。Excel是目前媒体人最普遍使用的数据工具,对于SQL、SPSS/SAS、Python和R语言等专业数据工具的使用普遍较少。即使面对大规模、大体量的数据信息,传统的数据技能也不足以实现充分挖掘和分析处理。
目前中央电视台、新华网、财新等不少媒体都在尝试数据新闻,但是建立专门的数据新闻团队从事数据新闻生产的媒体却寥寥无几。事实上在数据新闻团队中,相比于传统的记者、编辑,程序员的作用更加不容忽视。当前我国数据新闻从业者多为设计专业出身,对于数据的敏感度、数据中新闻的挖掘及运用数据驱动讲故事的能力相对较弱,直接制约数据新闻的发展。
第三,与专业数据挖掘团队的合作较弱。专业的数据挖掘公司与媒体间的合作较少,大多数的媒体基于内部的数据收集中心获取相关信息和数据的收集,多以团队分工形式完成,发展较大的媒体会设置专门信息搜集部门,但总体来说数据量少、数据来源有限,对数据的挖掘和分析深度欠缺,对国外相关数据获取能力低。目前国内大数据公司层出不穷,在数据挖掘和人工智能方面也有了长足发展,针对不同行业、不同用户可以提供定制化的数据解决方案,其主要客户集中于企业、政府、金融投资等全球行业用户。而与新闻媒体的合作尚处于尝试阶段,由于没有成熟可行的合作模式,再加媒体对于信息数据需求不明确、不精准,导致企业面对庞大的数据库无法有效筛选和提供服务。
第四,缺乏与社会化媒体的融合。在当前的传播格局中,社会化媒体异军突起,相对于电视、报纸等传统媒体,社会化媒体的受欢迎程度屡创新高,受众作为新生力量借社会化媒体平台涌入传播大潮,在很大程度上监督、制约媒体的新闻活动。财新网和FT中文网利用新浪微博等社交媒体发起数据新闻话题讨论,以话题的形式扩大数据新闻的传播影响范围,但是这样的融合仅仅停留在低层次的“合作、流动”的层面上,没有充分利用受众的信息资源,未形成社会化媒体融合时代的新型商业模式,仍以原有的新闻模式生产新形态新闻报道。
事实上数据新闻本身兼具经济价值和社会价值,从数据的收集整理、加工到可视化呈现、故事阐述等一系列的复杂、有深度的生产活动都可借鉴国外有偿新闻的高水平的新闻制作和数据处理服务模式,结合我国现有的经济体制和媒体环境,创新数据新闻发展商业模式,推动数据新闻在社会化媒体时代的精准营销和推广,为受众提供更多的信息服务,实现媒体与受众的信息双赢。
2 从“源”探索解困之道
开放、系统、完整的数据平台对数据新闻的发展至关重要,但完整的数据库建设并非一朝一夕就能实现,因此可以通过以下3个方面逐步形成。
第一,尝试“数据”众筹。互联网和移动终端技术的繁荣为社交网络媒体的发展提供了物质基础,微博、微信、微视频、论坛等凭借愈发强大的影响力和传播力聚集受众,社会化网络信息传播的自发性和互动性优势凸显,在满足网民信息需求的同时赋予网民更大的自主权,进而网罗大量一手数据信息,也可以说社交网络媒体产生的数据信息完成了“从群众中来”这一环节,对这些数据加以应用即是“到群众中去”。国内数据新闻媒体在这一方面的认识和实践明显滞后。
西蒙·羅杰斯曾言,Twitter已然成为新闻工作者的“理想工具”。目前数据挖掘技术的发展已经使社交网络产生的海量无序数据信息为媒体所用成为可能,并通过对分析数据发现新闻价值。2016年美国大选期间,《卫报》《金融时报》等多家媒体通过抓取和分析Twiiter上的信息预测大选结果,通过分析特朗普个人Twitter研究其政治倾向和态度,观察其与中国外交的观点和立场。荣获首届数据新闻奖的“骚乱中的谣言”基于对260万条Twitter信息的分析,以热力图的形式清晰展示谣言的传播路径,并揭示经济因素是引发社会骚动的真正原因。由此可见,社交网络所产生的庞大数据是目前可为新闻媒体利用的最直接可行的信息宝藏,充分挖掘和利用将有助于推动我国数据新闻的发展。
第二,创新数据新闻外包链模式。从国内媒体数据新闻来源来看,尽管数据来源渠道多、范围广,实际数据来源类型相对集中,多为他方提供的现有数据,网络用户数据占比较低,数据信息有限。事实上,中译语通、Palantir等国内外专业的数据挖掘公司拥有相对完整的数据生态系统,其掌握的数据体量庞大,可针对不同用户定制信息服务,若尝试将数据信息搜集、处理等工作外包给专业团队,形成合理的合作模式,将会推动数据新闻的发展。
第三,逐步建成数据库网络。大数据产业的快速发展将全球开放的数据聚合形成丰富的数据信息资源,这对于数据新闻的发展是一个重要的契机。从目前国内数据新闻报道所涉及的数据规模和体量来看,绝大多数都是低量级的结构化数据,将第三方结构化数据以可视化的形式呈现[1]。也就是说目前国内数据新闻并没有实现基于海量数据挖掘之上的信息处理,可视化呈现方面仅仅是将结构化数据进行简单的信息图式的处理,尚处于数据新闻生产的起步阶段。由此可见数据新闻的基础在于获取数据,因此数据库的建立尤为重要。从数据新闻在国内兴起到现在已有5年左右,各家媒体的新闻报道所呈现的数据都是有价值的资源,因此对现有新闻数据进行系统的整理和编制将会形成媒体内部的小型数据库,链接常用的数据来源,形成流动的数据信息平台,再以通过建立媒体之间的数据共享和流动,初步建立数据库网络,实现数据信息的共享,有利于媒体间的共赢发展。
3 结束语
随着数据技术的迅猛发展,数据新闻生产也需要在新的发展环境下寻求技术的支撑,尤其是从“新闻源”来拓宽数据新闻的信息覆盖范围,提升数据信息挖掘和处理的水平,有利于丰富数据新闻内容,拓宽数据新闻发展的道路。
参考文献
[1]沈甜.“数据新闻”在我国新媒体平台的实践与发展现状探究[D].兰州:兰州大学,2016.