基于信息空间理论的历史档案数据化及其生存模式研究

    郑丹妮

    摘 要:采用文献分析法,以信息空间理论为切入点,从编码、抽象和扩散三个维度解读历史档案的数据化特征。文章提出突破历史档案生存危机的关键是历史档案知识社会化,强调对数字历史档案的数据化开发和利用。文章还根据信息空间中知识演化的过程特征,得出两种历史档案生存模式。

    关键词:信息空间;历史档案;数据化

    Abstract: The paper uses literature analysis method. this paper analyzes the data features of historical archives from the three dimensions of coding, abstraction and diffusion. The article points out that the key to breaking through the crisis of historical archives is the socialization of historical archives knowledge, emphasizing the digital development and utilization of digital historical archives. According to the process of knowledge evolution in the information space, the article draws two kinds of historical archives survival mode.

    Keyword: Information Space;historical archives;Digitization

    歷史档案真实记录和反映着中华民族的集体记忆,不仅是中华先民智慧的结晶,也是中华历史文化遗产不可或缺的重要组成部分。关于历史档案的定义,冯惠玲、张辑哲认为:“历史档案是指形成时间较早、离现在较久远且主要起历史文化作用的档案。”[1]李财富认为:“历史档案是指1949年中华人民共和国成立之前的档案,这些档案主要发挥的是非现行价值,面对的利用主体是社会的各个方面。”[2]杨珩、史江认为:“历史档案主要是指1949年10月中华人民共和国成立以前所形成的档案,包括明代以前、明清档案、民国档案和革命历史档案等。”[3]从上述定义可以发现,学界主要是从时间角度界定历史档案,历史档案具有形成时间久远、历史文化作用明显等特质。

    信息革命之前,历史档案就已经出现生存危机,这种危机源于历史档案形成时间早的特征,体现在历史档案实体上。信息革命发生后,在数字化技术的帮助下,档案的内容信息从载体上解放出来,在缩微技术、数字化技术的帮助下,得以以模拟形式、数字形式重现,这些技术从一定程度上缓解了历史档案长期保存危机,档案馆也因此有了更多的时间思考如何战胜危机。然而,信息革命在挽救历史档案实体危机的同时也带来了新的问题。信息革命后,信息成为与物质、能源同等重要的存在,共同构成起支撑社会发展的三大支柱,世界范围内数据的数量激增,数据的丰富性阻碍了人们对有用信息的捕获能力,成为历史档案生存危机新的源头。如若历史档案利用无法打破时空界限被社会获取发挥价值,则注定被海量数据掩埋,被迫处于社会边缘状态,为社会所淘汰。当前,已有学者意识到这一危机。理论层面,裴燕生提出通过因特网管理和数据库管理提供利用文件是历史档案数字化管理的最终目的。[4]杨珩、史江提出要对历史档案的潜在信息进行挖掘,强化历史档案在编目、校勘、辑佚等方面的数字化工作,同时建立专题性强且具地方特色的历史档案数据库,并允许用户登录互联网进行目录查询。[5]实践层面,中国第一历史档案馆、中国第二历史档案馆相继开展历史档案的数字化项目并对其进行开发利用,为理论研究提供经验参考。显然,档案界将实现历史档案数字化开发利用视为历史档案度过危机的突破口。立足已有的研究基础,笔者尝试将信息空间理论与历史档案数字时代的生存问题相结合,依托信息空间模型,从编码、抽象和扩散三个维度分析数字时代历史档案的生存特征,继续探索历史档案如何度过生存危机这一核心问题并思考突破策略,为历史档案在数字时代的生存提供新的思路。

    1 信息空间理论与历史档案数字生存

    信息空间(Iinformation space)是英国学者马克斯·H·布瓦索(Max·H·boistz)提出的概念框架,用于研究信息空间框架中编码、抽象和传播三维上数据、信息和知识的转化关系。布瓦索将数据定义为事物的一种属性,如轻重、黑白等;而知识是行为主体的属性,预先决定了行为主体在特定条件下的行为方式;信息则是事物与行为主体之间建立的一种联系,其转化关系如图1所示[6]。

    从图1可以看出,行为主体通过感性或理性工具过滤得到对行为方式有意义的事物的数据子集(信息),这些信息会融入行为主体的知识储备,成为其知识源,在特定条件下影响行为主体。布瓦索通过信息空间上编码、抽象和扩散三个维度解释了这个过程,信息空间的构成如图2所示。其中,编码是赋予现象或经验以形式的过程,抽象是构成种种形式之基础的结构的过程,扩散是经过编码和抽象的信息传播给受众的过程[7]。

    当前历史档案的生存危机除了实体保存之外,还有因数字时代到来而出现的新危机,即历史档案需要在海量数据环境中获得竞争优势,避免被其他数据掩埋。针对新的危机,我们需要对历史档案数据进行深入开发并将其转化为易于大众接受的知识为社会所用,换句话说就是实现历史档案知识社会化。这一点,恰好同信息空间上事物本身的数据通过编码、抽象和扩散三个维度转化为知识的运动过程相类似。从信息空间理论视角来看,对历史档案的开发合理利用实质上就是对历史档案进行原始数据编码、抽象得到适合大面积扩散的信息集合的过程。需要强调的是,历史档案本身就是数据、信息和知识的集合体,在数字化的过程中,这种原有的集合体在技术的影响下发生变化,原先感官可捕捉的信息在数字化之后被隐藏,需要额外的描述将其表达出来。举例来说,明清档案原件字体的大小、字迹颜色、纸张材料及薄厚程度的不同等,如深红色背景黑色字迹,淡黄色背景红色字迹,颜色较浅字迹,以及红、蓝色字迹等因素,会对输出到缩微胶片上信息的清晰度及完整性产生相当大程度的影响,从而造成档案信息丢失。[8]这种丢失若不采取措施,会随着“模转数”技术被传递到数字形态的历史档案上,影响档案的质量。因此,重新分析数字化后的历史档案在信息空间编码、抽象、扩散三个维度的特征可以为历史档案生存问题提供更好的方法和思路。

    2 基于信息空间三个维度的历史档案数据化解读

    2.1编码维度。编码的过程是以其最具一般性的表达方式,创造有助于对现象进行分类的感性的和理性的范畴[9]。具体来说,就是对事物的数据进行描述的数据处理过程,使其从模糊向清晰转变,比如对于玻璃杯,从视觉角度来看是透明的、触觉角度看是硬的。“透明”“硬的”这些形容就是对玻璃杯这个事物数据的最初的具体的描述,是个人所接收感官数据被外化和描述的结果。通过编码这些具体的感官数据可以使用更高级的表达方式,比如语言和文字来建构起某个事物的整体性认识。对档案来说也是一样的,“文字记注的”“放在库房里”这些是对档案这一事物的直观的描述,通过编码,人们开始使用案牍、册等概念来描述档案这个事物。因此,编码程度的高低影响着人们对其描述的事物识别的清楚程度。

    就历史档案而言,编码维度强调完整性。从内容上看历史档案本身已经是形成者对档案所记述内容的编码成果,并且这个编码成果是已经经历过抽象和扩散过程,以符合识别标准的结构的状态被呈现出来。因此,当历史档案从物理形式向数字形式转变时,需要注意历史档案原有的内容信息(编码成功)的完整转移,做到不遗漏,确保历史档案信息价值的发挥不会受到影响。然而,除了历史档案所记载的内容信息,历史档案的载体材质、记录形式、装具、纹饰等也是不可缺少的信息,这些信息侧面反映了档案形成和流转的时空特质。当历史档案向数字形式转变,从以原子和分子构成转变为由0和1构成,时间和空间的距离阻断了人们对历史档案这个事物的实体数据的直接捕获,人们所接收的所有信息都依托于数字形式的历史档案,这时历史档案数字化表达的完整性直接影响这部分信息数据的隐现。若不对被隐藏的数据进行重新编码,则这部分数据可能就此被忽略,造成档案信息丢失。因此,数字形式的历史档案要想保证完整性,一方面需要保证历史档案从物理形式向数字形式转变后,保有原先物理形式历史档案的全部编码结果;另一方面,还需要在数字化过程中关注历史档案的物理形态信息,对转码过程中被隐藏的信息数据进行额外的编码。编码过程的完整是历史档案抽象和扩散的基础。

    2.2抽象维度。抽象是通过我们在完成某项特定任务时所需要的类别数最小化,从而实现数据处理上的节约[10]。简单来说,抽象就是一个简化过程,是一个用少表示多的过程,是对编码后的数据集合进行分类、精简和概括的过程。可以说编码过程指向历史档案数据完整性,而抽象过程指向历史档案数据描述的可共享性。比如,关于玻璃杯的描述有玻璃杯大小、重量、颜色、手感、易碎度等多种,如果将所有的特征直接打包进入信息的扩散维度,会出现数据量大和数据冗余的情况,不适合信息(数据集合)的接收者接收和理解。“档案”这一词汇的产生实质上也是抽象过程发挥作用的结果。清军入关前,满汉两族各自拥有对“档案”这一事物的描述,比如档子、案牍、册等。清王朝成立后,在民族融合的推动下,“档案”一词开始逐渐普及开来。总之,抽象就是对描述进行筛选与合并,在这一过程中与信息的传播最终意图无关的数据的排除,并且以一个具有更高概括度和社会认可度的结构确定下来的过程。抽象的程度越高,则越容易被不同背景的用户所共享[11]。

    历史档案在抽象维度主要经历两个阶段:第一个阶段是对编码的结果进行整理和归纳。也就是说,要形成具有一定概括性和普及度的类,方便历史档案编码结果的分类和汇总。第二个阶段是在第一个阶段的基础上,围绕特定主题对结果进行数据过滤,对分类后的数据集合(信息)根据与核心意图的因果关系进行类别的删减,通过数据节约的方式保证数字呈现和传播的结果最优化。

    2.3扩散维度。扩散维度是构成信息空间的三个维度中的第三个维度,扩散维度可参照在不同编码和抽象程度上运作的信息可以达到的特定数据处理的总体的比例来标度[12]。换句话说,扩散维度衡量的是经历过编码和抽象维度的信息在多大程度上能够被社会各方面的利用者所接收和理解。就档案而言,“档案”一词是清军入关,满族民族词语逐渐同汉文化相结合的产物,扩散就是描述“档案”这个词汇在群体中的被接受和普及的程度。从某种意义上来说,扩散维度其实是对编码和抽象维度得到的结果的显示的检验,表示的是基于个体的私有知识向共享知识移动的区域,扩散值越大,则信息实现的共享程度就越高。

    对历史档案而言,扩散维度上强调傳播的有效性,即历史档案信息的传播速度、范围和接收者的理解,这些首先受到技术的影响。历史档案信息从发送端传送到接收端,首先受到信息传递技术的影响,要想保证内容信息在发送端和接收端具有一致性,必须选择合适的技术。其次,传播速度和范围还会受到编码和抽象结果表达方式的影响,采用更多人可以掌握的表达方式有利于信息的扩散。此外,传播速度和范围还需要结合宏观的社会和文化环境,分析适合历史档案信息扩散的时机,合适的时机下,信息接收群体对历史档案信息的吸收和运用能力更高。

    3 信息空间视角下历史档案生存模式

    3.1知识演化与历史档案数据生存。知识是行为主体通过选择和过滤,从数据中提炼出来的信息中,对特定行为方式产生决定作用的部分。历史档案数字化生存从实质上也可以理解为是数字化后的历史档案数据经过整合和提炼,以信息的形式被传递,追求知识化的结果。在信息空间中,知识的动态演化涉及四个区域。如图3所示,在区域A中的是未被扩散的个体的知识。位于A区域的知识通过抽象和编码,去除一些默会的细节可以获得一般性,从而进入B区域。在B区域中,知识受到其创造者的控制变成专有的东西,这种控制表现为专利和著作权等形式。随着时间的推移,专有的知识会进入公共领域得到进一步的扩散,成为公共知识。而当人们使用公共知识,并把它运用在不同情况之下,公共知识会发生内化,到达D区域,知识会从显性转化为隐性的默会知识,被整合到常识的范畴,从而达到普遍[13]。

    就历史档案而言,档案馆藏历史档案同时分布在A区域和B区域之间,这两个区域的共同特征是扩散性不高,但B区域比A区域的抽象编码值更好,若A区域是经历过整理环节的历史档案,则B区域则是经过档案馆编纂的档案产品。A、B区域的历史档案要想进入C区域,知识性质的转变是关键,而扩散是这种转变的表征,扩散所具有的传播特质,对于历史档案提高社会认知度,在数字时代继续发挥价值有着积极作用。从知识演化过程可以看出,知识的最高形式是常识,常识通过知识的内在化达到,而知识内在化又以知识的运用为前提。前文已经提及知识实质上是信息集合,所以知识的运用即信息集合的运用,根据信息集合编码抽象程度的差异,笔者认为当前档案领域内通过知识运用以实现历史档案扩散的模式有两个,区别在于进入知识运用环节时历史档案编码抽象的程度:一是待数字形式的历史档案形成具有高编码、高抽象特征的信息集合时,通过现代传播技术,投入扩散维实现知识运用;二是直接将编码、抽象程度不高的数字形式的历史档案投入扩散维,让利用者成为编码抽象的执行主体,在传播同时继续编码、抽象工作。

    3.2 基于高编码抽象的历史档案。高编码、高抽象形式的历史档案,其扩散维的主要目标在于历史档案知识的传播,这需要耗费较大的人力和时间成本,所以一般是以档案馆为这些过程的执行主体,档案馆在这些过程中需要着重解决三方面问题:一是在抽象过程中,对于数字形式的历史档案数据应该遵循怎样的标准和规范来保证历史档案的原生性,尽可能避免数字化过程对完整性的影响;二是在抽象过程中,要发掘历史档案之间的因果关系,形成特定主题历史档案信息的知识脉络;三是扩散过程,确保历史档案信息传播的准确性和有效性。

    从编码过程看,目前档案馆针对历史档案的数字化项目,以历史档案长期保存为目标,强调数字转化成果与历史档案原件保持一致。实际操作过程中,有部分档案馆已经关注到转码后历史档案整体数据的变化,从而增加对技术性信息的额外描述,但从整体层面来看对历史档案整体数据化仍有不足。因此,历史档案的数据化应当立足历史档案长期保存的目标,以历史档案整体数据化为核心,重视修订与之相關元数据标准和规范,将除历史档案内容之外的其他有价值的数据包含在内,积极吸纳有利于历史档案完整转化的新兴数字技术,为后期的抽象和扩散打好基础。

    从抽象过程看,当前历史档案多采用先整理后数字化的模式,数字化后的历史档案直接将物理形式历史档案整理的结果转移到数字环境[14]。知识脉络也在此基础上得以呈现。数字化经验丰富,降低了数据化过程对历史档案进行抽象的难度,但也带来了问题。经验丰富意味着档案馆可以运用的分类法较多,在不同分类法上形成的历史档案元数据集合的语义关联悬殊,主题法基础上形成的元数据集合具有更高的语义关联度,而组织机构法则较为薄弱。因此,档案馆应当明确历史档案原件分类法,建立符合要求的元数据标准,以保证知识脉络的完整呈现。

    从扩散过程看,当前对历史档案传播效果的评价多是从档案馆角度展开的,忽视了利用者对传播效果的评价功能,缺少在线服务沟通与反馈机制。因此,档案馆应当开辟有效的在线服务反馈平台,积极与利用者进行沟通,保证历史档案信息在发送端和接收端的一致性,明确利用者对在线历史档案的理解程度,并以此评价历史档案传播的有效性,根据获得的指标及时调整编码工作和抽象工作。

    3.3 基于低编码抽象的历史档案数据化。对于低编码、低抽象形式的历史档案而言,将其置于扩散维度进行传播目的不直接作用于历史档案知识的传播和知识形态的转变。低编码、低抽象历史档案进入扩散维旨在通过诱发社会的好奇,吸引社会层面的关注,增加社会公众的参与感与责任感,从而协助扩大高编码、高抽象的历史档案的传播范围,提高高编码、高抽象的历史档案的传播有效性,从侧面协助历史档案度过数据掩埋危机。类似项目有英国档案志愿者项目、美国公民档案工作者项目。这些项目的共通性在于档案馆秉持共同参与、协同合作理念,利用互联网、社交媒体的力量建立与利用者之间的新型联系。这种模式明显区别于传统的档案馆工作模式,传统模式中档案馆是档案管理工作的执行主体,职能囊括收集到利用的全过程,利用者是档案馆工作成果的享有者,直接享受和使用经过多道工序的档案产品。笔者认为在这种模式中,档案馆需要处理的关键是找准定位。

    低编码、低抽象并不意味着不对历史档案进行任何处理,档案馆馆藏的历史档案在进馆时应当进行的常规性的档案管理步骤不会因为低编码、低抽象历史档案的进入传播环节而被取缔。上文也说过,将未完成高精度编码、抽象过程的历史档案提前投入扩散维度进行传播的目的是吸引社会层面的关注,从侧面协助扩大高编码、高抽象的历史档案的传播范围,提高高编码、高抽象的历史档案的传播有效性。基于这样的目的,档案馆需要做的准备工作一是应关注建设支持公民参与编码、抽象过程的数字平台。数字平台可以融入现有的档案馆馆方网站之中,通过开辟独立模块的形式呈现,也可以依托更广泛的共享平台,实现各馆历史档案资源的汇聚,如谷歌艺术项目。二是寻找具有更加有效传播效应的、适合利用者参与编码、抽象过程的时机。特定时间和事件节点,社会对于档案相关讯息的关注度会出现爆发式的提高,比如钓鱼岛争端凸显的时候,社会对档案的利用需求出现显著提高。档案馆可以分析关注度爆发的规律,在社会关注度较高的时间段推出相应主体的档案编码、抽象互动项目,达到传播目的。

    参考文献:

    [1]冯惠玲,张辑哲.档案学概论[M].中国人民大学出版社,2006:16.

    [2]李财富,张骁勇.新时期历史档案开发利用研究[J].档案学研究,2016(1):67-71.

    [3][5]杨珩,史江.知识管理背景下历史档案数字化策略研究——从历史文献学视角出发[J].档案学通讯,2009(1):50-53.

    [4]裴燕生.历史档案数字化管理的基础[J].档案学通讯, 2004(5):46-49.

    [6][9][11][12][13]马克斯·H·博伊索特,张群群等.知识资产:在信息经济中赢得竞争优势[M].上海人民出版社,2005:12-77.

    [7]马克斯·H·布瓦索,王寅通.信息空间[M].上海译文出版社,2000.

    [8]王海欧.明清档案“数转模”问题的审视与思考[J]. 中国档案,2017(6):64-66.

    [10]马振犊.中国第二历史档案馆馆藏档案数字化及其开放利用[J].档案学研究,2016(5):86-89.

    [14]谈国新,孙传明.信息空间理论下的非物质文化遗产数字化保护与传播[J].西南民族大学学报(人文社科版),2013(6):179-184.

    (作者单位:上海大学图书情报档案系 来稿日期:2018-01-19)