基于大数据时代的档案价值及其开发利用探究
曹筠慧+管先海+孙洋洋
摘 要:大数据时代是建立在互联网、物联网等现代网络渠道广泛收集大量数据资源基础上的数据存储、价值提炼、智能处理和展示的信息时代;档案“数据价值”是一种通过大数据技术处理、挖掘和应用而获得的价值。运用大数据技术对海量档案数据进行存储、分析,挖掘开发出新的档案“数据价值”,为社会各界多途径提供利用,将成为大数据时代档案部门的重要任务。
关键词:大数据;大数据时代;档案价值;数据价值;开发利用
“‘大数据这个名词并不新鲜,早在1980年代,美国就有人提出了‘大数据的概念。”[1]进入21世纪以来,世界上许多国家开始关注大数据的发展、应用和研究,“在云计算、 物联网等技术的推动下,全球已步入了‘大数据时代。”[2]目前来看,我国大数据的理论研究和应用研究刚刚起步,学术界、企业界及政府部门对该领域的重视程度前所未有。本文仅就大数据时代的档案价值及其开发利用问题,进行初步探究。
1 大数据、大数据时代及其特征
1.1 大数据概念及其特征。目前,关于大数据的定义众说纷纭。例如,维基百科给出的定义是:“大数据指的是所涉及的资料规模巨大到无法透过目前主流软件工具在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”;大数据科学家John Rauser给出的定义是:“大数据指任何超过了一台计算机处理能力的数据”;美国咨询公司麦肯锡的报告的定义是:“大数据是指无法在一定时间内用传统数据库软件工具对其进行抓取、管理和处理的数据集合”。[3]我们认为,大数据定义之所以众说纷纭,主要是因为大数据所涉及的内容太“大”,大家看它的角度不一样。我们可以把大数据作为研究对象,从数据本身和处理数据的技术两个方面理解大数据,这样理解大数据就有狭义和广义之分。狭义的大数据是指数据的结构形式和规模:就数据的结构形式而言,大数据不仅包含结构化数据,更多的是指半结构化的数据和非结构化数据,指大数据包含的数据形式多样;就数据的规模而言,大数据等同于海量数据,指大数据包含的数据规模巨大。广义的大数据不仅包括数据的结构形式和数据的规模,还包括处理数据的技术。大数据的处理技术是指能够从不断更新增长、有价值信息转瞬即逝的大数据中抓取有价值信息的能力。不管从广义的角度,还是从狭义的角度来看,大数据的核心是数据。因此,从统计学与计算机科学角度而言,大数据指那些超过传统数据系统处理能力、超越经典统计思想研究范围、不借用网络无法用主流软件工具及技术进行单机分析的复杂数据的集合。对于这一数据集合,在一定的条件下和合理的时间内,我们可以通过现代计算机技术和创新统计方法,有目的地进行设计、获取、管理、分析,揭示隐藏在其中的有价值的模式和知识。大数据的基本特征主要体现在以下四个方面:一是大量性。是指大数据的数据量巨大。二是多样性。是指数据类型繁多,不仅包括以文本资料为主的结构化数据,还包括网络日志、音频、视频、图片、地理位置等半结构或非结构化的数据资料。三是价值性。指大数据价值巨大,但价值密度低,可能转瞬即逝。四是高速性。指数据处理时效性高。
1.2 大数据时代及其特征。大数据时代是建立在通过互联网、物联网等现代网络渠道广泛大量数据资源收集基础上的数据存储、价值提炼、智能处理和展示的信息时代。在这个时代,人们几乎能够从任何数据中获得可转换为推动人们生活方式变化的有价值的知识。大数据时代的基本特征主要体现在以下几个方面:一是社会性。在大数据时代,从社会角度看,世界范围的计算机联网使越来越多的领域以数据流通取代产品流通,将生产演变成服务,将工业劳动演变成信息劳动。二是广泛性。在大数据时代,随着互联网技术的迅速崛起与普及,计算机技术不仅促进自然科学和人文社会科学各个领域的发展,而且全面融入到人们的社会生活中。人们在不同领域采集到的数据量之大,达到了前所未有的程度。三是公开性。在大数据时代会有越来越多的数据被开放,被置于公共的网络环境之中。这种公开性和公共性的实现取决于若干个网络开放平台或云计算服务以及一系列受到法律支持或社会公认的数据标准和规范。四是动态性。人们借助计算机通过互联网进入大数据时代,充分体现了大数据是基于互联网的及时动态数据,不仅数据资料的收集具有动态性,而且数据存储技术、数据处理技术也随时更新,即处理数据的工具也具有动态性。
2 基于大数据时代的档案价值的新变化及其现实意义
2.1 档案“数据价值”及其主要特征。传统档案价值理论对档案价值的判断和分析都是基于信息层面的,无论是凭证价值,还是参考价值,都是通过查阅档案满足人们查证查询某一信息的需求而实现的价值,可以统称为档案“信息价值”。用大数据的视角来审视档案的价值,档案不仅具有信息层面的价值,还具有数据层面的价值,即档案“数据价值”。档案“数据价值”是指在大数据背景下档案作为一种重要的数据资源所具有的价值,是一种通过大数据技术处理、挖掘和应用而获得的价值。[4]与档案“信息价值”相比较而言,档案“数据价值”具有隐深性、关联性、动态性和宏观性,是一种隐性价值、关联价值、动态价值、宏观价值。一是隐深性。与可以通过查阅档案直接获取的显性的浅层次的档案“信息价值”不同,档案“数据价值”是隐性的深层价值,从档案中无法直接获取,只通过大数据技术对海量档案数据进行处理挖掘才能使之显现出来。二是关联性。与具有相对独立性的档案“信息价值”不同,档案“数据价值”具有关联性,是通过档案数据共享、交叉复用后获取最大的档案数据价值。三是时效性。与时效性较弱的档案“信息价值”不同,档案“数据价值”时效性要求更强,过时的数据分析结果的应用价值会大打折扣。四是宏观性。与微观层面的档案“信息价值”不同,档案“数据价值”更多体现在宏观层面,是一种总体数据价值,注重的是数据的规模、完整性、多样性而不仅仅是绝对的精准。
2.2 档案“数据价值”提出的现实意义。主要体现在三个方面:一是大大丰富了档案价值观,有利于档案界树立新的档案价值观并从档案“数据价值”这个维度去研究档案的价值,更加全面深刻地理解和把握大数据时代的档案价值的内涵,更加准确地认识和把握大数据时代的档案价值的内在规律,从而把档案价值理论研究引向深入。二是大大拓展了档案的外延,使一些原本没有保存价值的不归档文件材料,重新变得有价值了,有了归档的必要性。三是大大创新了档案工作实践。具体表现有四:其一是,随着大数据技术的发展和日渐成熟,电子档案已成为大数据的重要来源,电子文件归档和电子档案管理逐渐成为档案工作主要内容。其二是,推进传统载体档案数据化,采用云存储技术处理挖掘应用档案“数据价值”显得刻不容缓。其三是,“逐份鉴定”的传统做法已不合时宜,以一个项目、活动、事件,甚至一个机构的“全部数据”为基本单位的“宏观鉴定法”将登台亮相。其四是,基于档案“数据价值”的利用服务将发生巨大变化,查准、查全变成了小菜一碟,深入的数据处理将成为档案利用服务的重要内容。
3 基于大数据时代的档案价值开发利用
3.1 顺应时代要求,树立“三大”理念。一要树立“大开放”理念,加强对馆藏档案“数据价值”的开发挖掘,并通过传统与现代传播技术,主动将相关档案数据信息传送、推送到相应利用者手中,促进馆藏档案数据信息的有效利用。二要树立“大档案”理念,整合档案资源,注重原始档案数据的获取、分析和挖掘开发,并运用数学算法使海量档案数据更加真实、全面、客观地反映本地区政治、经济、文化、社会发展和民风民俗等全貌,从而更好地为社会各方面提供档案数据信息利用服务。三要树立“大服务”理念,以利用者需求为导向,提供“适销对路”的档案数据信息服务产品,为社会各界借鉴、研究、预测、文化、休闲提供更多、更丰富的档案数据信息参考和素材,从而使档案“数据价值”开发利用范围更广、层次更多。
3.2 增设机构人员,强化队伍建设。一是各级国家综合档案馆,尤其是市县两级国家综合档案馆,应在现有条件允许的情况下,设立相关的档案“数据价值”开发利用机构,配备相应人员,充实档案“数据价值”开发利用力量,更好地围绕党委、政府工作大局,以人为本,用专门的精力、从专业的角度,做好档案“数据价值”开发利用工作。二是各级国家综合档案馆,尤其是市县两级国家综合档案馆要强化队伍建设,提高队伍素质,做好“选”“育”“留”工作。“选”就是选用优秀的干部,把好入口关,将有能力、有作为、有担当的干部充实到档案“数据价值”开发利用队伍中来;“育”就是抓好干部继续培训教育,培养具有较强的文字功底、敏锐的新闻嗅觉、广阔的视野以及运用新技术能力的档案“数据价值”开发利用新型人才;“留”就是让干部安心本职工作,尊重信赖人才、合理使用人才,依事用人,用人所长,从而使档案“数据价值”开发利用工作收到事半功倍的良好效果。
3.3 丰富馆藏内容,优化馆藏结构。一是各级国家综合档案馆,尤其是市县两级国家综合档案馆,要按照国家档案局发布的《机关文件材料归档范围和文书档案保管期限规定》、《各级各类档案馆收集档案范围的规定》、《企业文件材料归档范围和档案保管期限规定》,加强相关文件材料收集归档和接收进馆的业务指导力度,充实馆藏内容,为馆藏档案“数据价值”开发利用工作打下坚实基础。二是各级国家综合档案馆,尤其是市县两级国家综合档案馆,要按照“以人为本”的原则,以全面、真实保管本地经济和社会发展的历史记录为己任,根据自身馆藏门类情况,注重涉及人民群众切身利益的民生类、声像类、电子类档案数据的接收、储存,为馆藏档案“数据价值”开发利用工作增砖添瓦。
3.4 强化经费保障,加快数据建设。一要强化经费保障。档案部门作为一个单纯依靠政府投入的公益性事业部门,政府投入相对较少,尤其是在中西部一些相对贫穷的市县档案馆,档案经费短缺已司空见惯,馆藏档案“数据价值”开发利用资金更是杯水车薪。俗话说“兵马未动,粮草先行”,无论是档案数据存储、分析,还是档案数据挖掘、开发,抑或购置相关设施设备,都需要数目不小的费用。将馆藏档案“数据价值”开发利用经费长期纳入政府财政预算,应当是促进该项工作正常、持续开展的根本保障。二要加快数据建设。加快档案数据建设的主要途径是加快数字档案馆建设。数字档案馆最大的优点在于可以通过云计算、大数据技术建立档案“数据价值”开发利用大平台,将档案数据信息资源进行馆际、馆室整合。从档案用户角度来讲,利用人员将不受时间、地域、人数的限制,足不出户就能查阅、利用大平台里公开的所有档案数据信息;从档案馆方面来讲,工作人员可利用大数据技术,根据用户对档案数据信息资源的查询频繁程度,确定工作导向,优先开发需求程度大的档案数据信息文化产品,最大限度地满足社会对档案数据信息资源的需求。
3.5 全面创新驱动,明确发展方向。各级国家综合档案馆,尤其是市县两级国家综合档案馆,要全面创新档案“数据价值”开发利用的主体、方式、途径,向开发利用多元化、科技化、个性化方向发展。一要全面创新档案“数据价值”开发利用主体,以纵向联合和横向联合为支撑,向开发利用多元化方向发展。一方面要强化纵向联合,凝聚强大内力,组织本地区甚至更大区域内档案系统档案“数据价值”开发利用工作人员,形成整体合力,让大家发挥各自馆藏档案数据信息资源优势,共同商讨、选择和完成档案“数据价值”开发利用课题;另一方面要强化横向联合,巧借各种外力,充分运用档案及档案文化特有的元素和魅力,主动地走出去联合其他单位、文史专家、学者,引智借脑,促进馆藏档案“数据价值”开发利用工作的开展。二要全面创新档案“数据价值”开发利用方式,以数字档案馆和档案网站为支撑,向开发利用科技化方向发展。一方面要充分利用数字档案馆这个平台,凭借新技术采集、整理、开发馆藏档案数据信息,创造多形式、系列化的档案数据信息文化产品,将馆藏档案“数据价值”开发利用工作引向纵深发展;另一方面要通过档案网站设立的在线交流平台、QQ群、意见箱等方式,建立快速有效的信息反馈机制,使档案工作人员能直接、快捷地了解用户的具体意见与需求信息,为馆藏档案“数据价值”开发利用工作的开展提供重要参考。三要全面创新档案“数据价值”开发利用途径,以政务微博、手机档案馆、微信公众服务平台为支撑,向开发利用个性化方向发展。一是充分利用政务微博即时性、分享性、互动性的独特传播优势,通过推送档案工作信息动态和档案中的故事、建立微展厅展示馆藏档案精品、进行交流互动等方式宣传档案、档案人、档案工作和档案文化,拓展馆藏档案数据信息为社会公众服务的渠道。收集储存档案数据信息固然至关重要,但还远远不够,因为档案“数据价值”开发利用的关键在于它的使用(即它的潜在价值的无限再利用)而不是占有本身。二是充分利用手机档案馆的快速便捷优势,为利用者提供个性化和智能化档案数据信息服务,实现档案馆对利用者所需馆藏档案数据信息的精准推荐,从而让馆藏档案数据信息“飞入寻常百姓家”造福民众而不囿于“王榭堂前”,最大限度地发挥馆藏档案“数据价值”满足利用者个性化需求的作用。根据中国互联网信息中心的统计,截止2014年6月底,我国移动电话用户数量已突破12亿户,而手机网民的数量已达5.27亿,手机用户已经成为信息产业的重要客户群体。“只需一部智能手机,对准二维码轻轻一扫,便能坐在家中,自由参观游览档案馆的全部内容……设有档案知识、珍品推荐、历史探究、在线展厅、利用案例、一线动态等栏目……”。这是山东省句容市档案馆开通运行的“手机档案馆”的宣传。三是充分利用微信公众服务平台可与QQ、QQ邮箱、微博等多种网络平台进行绑定和共享的强大的网络联动功能,一对多地传播文字、图片、视频和语音等形式多样的馆藏档案数据信息,实现一定需求下无时限、无人工的档案数据信息服务。同时,通过开设微互动、微推送、微征集板块开展在线咨询服务、传播档案文化,最大限度地发挥馆藏档案“数据价值”的作用,最大程度地满足利用者对馆藏档案数据信息的个性化需求。