标题 | 数据治理视域下网络信息资源归档难点及对策探析 |
范文 | 危娅婷?丁玲?曾婷 摘 要:文章从数据治理角度出发,从标准、主体、质量和技术等方面分析网络信息资源归档难点,提出建立统一标准规范体系、形成纵横联动机制、构建数据质量保障策略、搭建全生命周期保障平台等四个方面的应对策略。 关键词:数据治理;网络信息资源;数据质量 大数据时代下,人们的生产生活乃至各行业的产业模式开始互联网化,在这些互联网化的活动中产生了具有保存价值的海量异构数据集。据统计,截至2020年3月,我国网民规模达9.04亿,手机网民规模达8.97亿,互联网普及率达64.5%,网站数量为497万个,域名总数为5094万个[1]。网络已成为公民、组织和政府机构交流的平台。在固定业务活动圈中收集与留存活动信息的档案工作,在大数据时代如何有效收集与留存网络活动轨迹,维护大数据时代下的社会记忆,这无疑对当前局限于在固定业务圈活动的档案工作提出了新的挑战。本文将在数据治理视域下探讨网络信息资源归档的难点,并提出应对策略。 1 数据治理与网络信息资源 1.1 数据治理的内涵 数据治理是组织机构对数据采集、保存与使用的一套管理行为。数据治理的内涵至今还未统一,国外学者Begg和Caira[2]总结研究初期数据治理定义,认为数据治理是政策、流程、技术和职责的统一;国内学者张宁和袁勤俭[3]在研究国内外数据治理基础上,认为数据治理是围绕数据资产展开的系列工作,以服务组织各层决策为目标,涉及有关数据管理的技术、过程、标准和政策的集合,包括政策与标准、数据质量、数据隐私与安全等数据治理内容,其中技术已融入部分数据质量的评估与提高当中。 1.2 数据治理下的网络信息资源归档 网络信息资源是互联网网络行为下各种信息资源的总和,同纸质档案一样具有档案属性,记录着国际机构、社会团体和个人在社会活动中产生的各种形式的信息,包含着对国家和社会具有工具和信息价值[4]的历史记录。网络信息资源归档是有关主体将具有保存价值的网络信息进行捕获、鉴定、归档和保存等过程,也是相关主体对网络信息资源进行归档决策行为与过程。网络信息资源归档是档案实现数据治理的节点之一,同时数据治理的核心内容为网络信息资源归档工作提供了理论和方法支撑。为保障网络信息资源归档决策行为执行的有效性,规范档案数据治理中的采集与保存行为,档案部门应从网络信息资源标准、网络信息资源责任主体、网络信息资源质量、网络信息资源保障技术四个方面开展信息资源归档工作。 2 网络信息资源归档的难点 2.1 相关标准规范未成体系 《电子文件归档和电子档案管理规范》(GB/T 18894—2016)规定邮件、网页、社交媒体类电子文件归档范围纳入电子文件归档范畴;公务电子邮件以EML格式,网页、社交媒体类电子文件以HTML等格式归档。《机关档案管理规定》(国家档案局令13号)规定机关档案收集公务电子邮件、网页信息、社交媒体档案;要求按照公务电子邮件(YJ)、网页信息(WY)、社交媒体(MT)设置一级门类代码。《政府网站网页归档指南》(DA/T 80—2019)明确了政府网站网页归档要求,包括责任主体和责任划分、归档范围、保管期限、收集内容及元数据要素、归档格式等规定内容。《宁波市人民政府办公厅关于印发宁波市政府网站归档管理暂行办法的通知》(甬政办笺[2018]339号)[5]规定了政府网站归档责任主体;明确采集范围、技术保障、归档方式和时间;要求将MARC、OFD等格式作为归档格式。 从上述几个国家、行业、地方标准看出,网络信息资源已纳入电子文件归档范畴,包括公务邮件、网页、社交媒体,其中国家和地方已出台专门的政府网站网页归档管理规范,但缺乏具有广泛适用性的网络信息资源及其元数据的采集归档与保管利用标准规范,网络信息资源采集、归档与保管工作只能参照相关规定执行。 2.2 主体单位采集意识薄弱 现政府机构、社会团体和个人均在各类网站、微博、微信等发布和传播信息,但却未认识到其在网络活动中产生的网络信息资源同纸质文件和业务系统电子文件一样,对自身生产活动具有长期保存价值。究其原因,一方面,当前还无统一适用的标准规范来遵照执行;另一方面,网络信息资源作为新型信息形态,无论是对于主体单位领导和各业务部门,还是档案部门还说,意识到其具有长期保存价值需要时间,采集意识的延迟致使主体单位及其档案部门还未将网络信息资源纳入各类文件材料收集归档范畴。 2.3 相关责任主体缺失 虽然当前已有图书馆、档案机构、科研机构等对网络信息资源归档展开了理论研究与工作实践,同时出台了一些相关标准规范,但是未明确网络信息资源采集责任主体,存在网络信息资源未及时收集或从未展开相关工作,造成具有重要保存价值的信息丢失,或重复采集,造成人力、财力等资源浪费。 2.4 数据质量受自身和技术条件制约 2.4.1 自身因素 网络信息资源不同于纸质档案,也不同于单位在业务工作中直接产生的电子文件,其具有自身特性,这些特性在一定程度上增加了主体单位將其采集与归档的工作难度。孙大东在对网络信息归档难点的调查结果显示,网络信息本身的属性和特点对其归档影响非常大,而且往往是阻碍因素[6]。 1)资源海量,形式多元。网络信息数量庞大,还包括结构化、半结构化和非结构化的信息,并且存在语法语义上的异构性。面对海量信息资源,查找并逐一筛选有价值的信息,同时根据信息在语法语义上的特性选择合适的归档格式保存,再对其进行整理,这无疑使得档案工作面临着人力、物力和财力的挑战。 2)更新速度快,内容易逝。网络信息资源更新速度快,根据相关数据显示,网络信息的平均寿命为44天,博客只有38.2天,而新闻网页的寿命少至36小时[7]。此外,信息发布者可随时对信息进行修改、删除,这就需要信息捕获工作者迅速、准确采集信息,若网络信息资源被修改删除,还需多次采集存储,加重了归档工作的难度与负担。 2.4.2 技术因素 1)价值判断困难。冯惠玲提到,“當今时代档案资源建设最大的机遇和挑战是数字档案资源的崛起,它在档案资源观中增添了重要的新视角和新元素。在茫茫数字海洋中,如何识别、认知具有档案特质的文件信息,如何判断电子文件、档案的效力和价值,如何搭建数字资源与实体资源的关系都有许多理论和实践问题需要明晰。”[8]查找筛选网络信息资源,若是人工完成,则需要花费巨大的时间和精力,而且无法保障信息的完整性和全面性,若通过相关技术实现,该如何确定哪些信息是具有保存价值,应归档留存,在这些归档留存的网络信息资源中哪些又是需要永久保存的。网络信息资源价值判定在档案学术界相关理论研究中并没形成统一标准,在相关标准规范中也未明确相关内容。 2)四性与安全保障难度大。网络信息资源的四性包括真实性、完整性、可靠性和可用性。自电子文件出现以来,其四性和安全保障探讨从未间断,同在办公自动化系统、业务系统产生的电子文件相比,网络信息资源产生在公共网络上,多是通过非正式渠道发布在网上,其真实性认定困难。网络信息资源来源、主体和传播渠道的多元,使其四性和安全保证更具不确定性,保障难度更大。 3 面向数据治理的网络信息资源归档对策 3.1 顶层设计,建立统一标准规范体系 《全国档案事业发展“十三五”规划纲要》中要求,“研究制定重要网页资源的采集和社交媒体文件的归档管理办法”,网络信息资源归档工作亟需标准规范来参照执行。第一,统一归档格式和数据结构标准,网络信息资源存在不同的信息格式和数据结构,相关捕获系统不可能实现所有信息格式和数据结构的兼容,此外,归档格式和数据结构的选择应保证网络信息资源长期可用。第二,统一著录与存储标准,规范网络信息资源元数据和格式转换标准,保障网络信息资源内容及其元数据收集齐全完整,并存储规范,长期可用。第三,明确责任主体,确定网络信息资源归档责任主体应是综合档案馆及各组织机构的档案部门,而采集主体应是政府机构和组织机构各业务部门,明确责任分工。第四,提供归档网络信息资源分类方案、归档范围和保管期限表,制定一般性网络信息资源“三合一”表,根据可能存在的几种管理情况,提供不同的网络信息资源分类方案,提供可执行的标准参考。 3.2 多方协作,形成纵横联动机制 网络信息资源归档不是一个机构能够独立完成的,需要多方协作,各自承担相应责任。不同层级机构分工明确,自上而下形成纵向支撑机制。国家档案局应统筹网络信息资源采集、归档与保存工作,出台统一标准规范,提供业务指导和参照;技术支持者提供网络信息资源采集归档系统,实现信息归档格式与数据结构的自动转化,提供技术支撑;学术界持续开展网络信息资源归档管理相关研究,为其归档提供理论支撑。图书馆、博物馆、档案馆多方合作,整合资源,形成横向合作交流机制。2002年,在国家973和985项目支持下,北京大学网络实验室开发建设“中国Web信息博物馆”——中国网页历史信息存储与展示系统,[9]2003年,国家图书馆启动网络信息资源采集与保存试验项目(WICP),2018年,国家档案局启动网站网页资源归档试点工作,该项试点工作将为标准规范提供实践经验和理论依据[10]。各方机构应相互交流,协同合作,共同为网络信息资源采集与归档保存提供经验指导与理论依据。 3.3 明确思路,构建数据质量保障策略 3.3.1 构建网络信息资源采集策略 在遵照相关标准规范外,组织机构还需建立符合自身情况的网络信息资源采集策略,确定采集的范围与标准、技术与频率等。 1)范围与标准。网络信息资源采集策略可分为全面采集、选择性采集、专题采集、组合采集等[11]。全面采集可利用网络爬虫技术定期自动采集网络信息资源,但这种全面性也是相对的,根据地域或者域名确定范围边界;选择性采集是指根据限定的标准进行采集,例如采集特定网站、主题或时间、信息的形式等等,选择性采集适用收集相对重要信息的需求;专题采集属于选择性采集,基于某一事件或人物采集相关信息,例如重大活动、名人等;组合采集是使用上述两种以上采集策略,例如可对采集对象进行完整性采集,同时选择特定主题或事件进行专题采集。 此外,网络信息资源的内容、形式、自身需求、法律和成本是影响组织机构采集的因素。组织机构可根据归档网络信息资源内容真实性与原创性,以及来源权威性,即根据内容因素确定采集标准;也可根据信息格式,只采集特定格式标准的网络信息资源;还可根据自身实际需求采集特定内容和形式的信息资源;可在法律规定下,采集例如不涉及个人隐私权的网络信息资源;也可在成本的考虑下,确定采集的范围。 2)技术与频率。对于网络信息资源的捕获,可采用网络爬虫技术和特定应用程序接口(API)。网络爬虫技术是“对万维网的信息进行自动抓取的程序或者脚本,并且采用某种规则。”[12]是一种广泛使用的捕获技术,捕获速度快,同时数据库可直接存储捕获到的信息;应用程序接口是一些经过了预先定义的函数,提供开发人员访问的一些良好的程序权限,而又不要求开发人员看得懂源代码或一定理解其内部工作机制的细节。[13]API可保持与特定社交媒体网站的数据连接,自动获取数据,还可自动检测格式,对格式进行统一整理。 无论选择使用哪种技术采集网络信息资源,都需确定采集频率。采集频率的确定需要考虑网站更新的频率和网站的重要性。对于较为稳定、更新不频繁的网站,通常认为每隔六个月进行一次采集是比较合适的。[14]但是对于更新频繁的网站和社交媒体来说,网络信息资源的采集频率需要更高,同时还要结合网页的重要程度考虑。 3.3.2 构建网络信息资源价值筛选策略 筛选归档网络信息资源,需要从主体职能与定位、信息价值表现形式、网络信息价值判断的粒度进行分析[15]。笔者认为向礼花提出的归档网络信息价值自描述[16]可为构建网络信息资源价值筛选策略提供借鉴。向礼花通过对归档网络信息资源价值构成要素分析,形成归档网络信息资源价值元数据,建立归档网络信息资源价值元数据自描述的机制,由机器人自动抽取机制元数据,或将价值元数据与网络信息资源本身建立联系,再由机器人自动根据价值元数据筛选需要归档的网络信息资源。她认为可通过在HTML的头标签嵌入价值元数据或者用XML描述实现归档网络信息资源价值的自描述。 3.4 技术掌舵,搭建全生命周期保障平台 网络信息资源因其自身的特性以及技术的不断更新换代,导致网络信息资源归档与保管工作面临着许多技术挑战。网络信息资源采集、鉴别、归档和保管涉及网络信息资源采集技术、价值鉴别技术、存储载体性能、信息长期保存技术和信息安全保障技术等。组织机构可根据自身实际情况选择合适的技术展开工作,第一,如果技术条件有限,可选择主要留存静态网页,若组织规模较小,采集信息量不大,可主要采用人工采集方法。第二,存储载体的选择可根据成本和载体稳定性等因素结合考虑,一般可考虑选择稳定性高,成本低,寿命较长的载体,同时做好存储载体的信息检测与迁移工作。第三,根据相关标准要求以及组织机构自身实际情况确定长期保存格式,便于网络信息资源保存与利用。第四,从防火墙技术、入侵检测技术、审计技术、电子印章与电子签名技术、动态水印技术等方面保障网络信息资源安全。 4 结束语 信息网络时代下,网络成为人们生产、传输信息的重要渠道,网络信息资源承载着网络社会活动记忆与文化。如何有效采集归档网络信息资源,需要从规范、主体、质量、技术等方面考虑,确保相关主体执行网络信息资源归档决策的有效性,规范网络信息资源在档案数据治理中的采集与保存行为,为组织机构提升网络信息资源数据治理能力奠定基础。 参考文献 [1]中国互联网络信息中心.第45次中国互联网络发展状况统计报告[EB/OL].[2020-05-22] http://www.cac.gov.cn/gzzt/ztzl/zt/bg/A0920010206index_1.htm. [2]Begg C,Caira T. Exploring the sme quandary: Data governance in practice in the small to medium-sized enterprise sector[J].Electronic Journal Information Systems Evaluation,2012(15):3-13. [3]张宁,袁勤俭.数据治理研究述评[J].情报杂志,2017(5):129-134,163. [4]引用湖北大学覃兆刿教授提出的“档案双元价值观” [5]宁波市政府信息公开.宁波市人民政府办公厅关于印发宁波市政府网站网页归档管理暂行办法的通知[EB/OL].[2020-05-22]http://zfxx.ningbo.gov.cn/art/2018/10/31/art_2463_3013479.html. [6]孙大东.我国档案馆(室)网络信息归档调查研究[J].档案学通讯,2017(4):78-83. [7]毕云平,谢海洋.档案学视角下网页归档与保存研究综述[J].档案学研究,2015(4):74-78. [8]馮惠玲.档案记忆观、资源观与“中国记忆”数字资源建设[J].档案学通讯,2012(3):4-8. [9]百度百科.中国Web信息博物馆[OL].[2020-06-01].https://baike.baidu.com/item/%E4%B8%AD%E5%9B%BDWeb%E4%BF%A1%E6%81%AF%E5%8D%9A%E7%89%A9%E9%A6%86/9823741?fr=aladdin [10]国家档案局.国家档案局网站网页资源归档试点工作启动[EB/OL].(2018-07-18)[2020-06-01].http://www.saac.gov.cn/daj/daxxh/201807/b7ee27b2500a4a3cbda3c8cb5a787bda.shtml. [11]仇壮丽,许冬玲.归档网络信息资源选择策略的影响因素研究[J].档案学研究,2011(3):63-66. [12][13]常家豪.基于社交媒体的安全态势信息采集方法[J].网络安全技术与应用,2014(7):5-9. [14]雷安琪.社交网站网页档案保存研究[D].武汉:华中师范大学,2016. [15]仇壮丽,许冬玲,卜淑芬.归档网络信息价值判断模型之研究现状与展望[J].档案学通讯,2010(6):61-64. [16]向礼花.归档网络信息价值的元数据描述[D].湘潭:湘潭大学,2013. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。