档案知识聚合的实践模型构建研究
魏扣 李子林 郝琦
摘要:档案知识聚合作为知识经济时代档案开发利用形式的创新体现,为档案知识增值与档案服务社会化提供了实现路径。本文基于档案知识聚合模式的选择应遵循深度性、易操作性、全面性、保密性原则,同时,结合档案知识聚合的自身特点,参考各类知识聚合模式的优缺点,最终选定基于语义——情景的档案知识聚合模式,并从基础层、聚合层、应用层和评估层四个维度搭建档案知识聚合实践模型。
关键词:档案知识聚合知识服务实践模型
Abstract: Archival knowledge aggregation, as an innovation manifestation of exploitation of ar? chives in the era of knowledge economy, provides a path for the value-added of archives knowledge and the socialization of archives services. This pa? per chooses the semantic- scene based archival knowledge aggregation model, which follows the principles of depth, easy operation, comprehensive? ness and confidentiality. According to the advantag? es and disadvantages of various types of knowl? edge aggregation models. Consequently, we build archival knowledge aggregation practical model from four dimensions: foundation layer, aggrega? tion layer, application layer and evaluation layer.
Keywords: Archives; Knowledge Aggregation; Knowledge Service; Practical Model
早在知識聚合概念提出前,图情学界已对文献、数据、信息等粗颗粒度信息资源的整合、聚合展开研究。当前,我国图情学界在知识聚合理论、聚合模式、技术应用方面均取得一定研究成果,但档案学界对档案知识聚合的研究较为少见。截至2018年4月,在中国知网、读秀知识库、万方数据资源系统—数字化期刊全文库等主流数据库中以“档案+聚合”为关键词进行题名检索,仅得6篇文献;以“档案+知识聚合”进行篇名检索,未检索出相关文献。由此可见,我国档案学界尚未系统开展档案知识聚合主题研究。一方面,传统的档案文献借阅、档案编研等服务方式无法满足知识经济时代档案用户的知识利用需求,这种需求驱动着档案知识聚合研究的开展;另一方面,档案学界关于档案知识管理、档案利用服务的相关研究成果丰富,为档案知识聚合研究奠定了理论和实践基础。档案学界现已认识到档案利用服务中档案知识挖掘、处理、整合的重要性。在此背景下,开展档案知识聚合研究,探索档案知识聚合的理论模式与实践模型成为应时之事。
一、档案知识聚合概念分析
档案知识聚合属于组合型概念,由“档案知识”与“知识聚合”两个概念组配而成。因此,从基础性概念“知识聚合”着手,在界定“知识聚合”概念的基础上,逐渐明晰档案知识聚合的概念内涵。
(一)知识聚合内涵
知识聚合在信息技术深度发展、社会信息量剧增、用户信息需求驱动的背景之下应运而生。该概念最初起源于文献、资料等粗粒度信息资源的整合思想;随后,伴随着日渐兴起的数据整合、信息聚合等中粒度聚合技术应用而逐渐拓展、深化。知识经济时代,人们意识到知识的重要性并将其视为组织的重要资产,知识聚合逐渐引起研究人员关注。目前,国内学者虽未对知识聚合形成确定一致的概念内涵,但多数学者认同知识聚合是通过对文献、信息、数据等资源进行知识化处理,抽取其中的知识单元,结合用户需求,并将这些知识单元按照一定关联重新聚集和组合,形成用户所需的高聚合度、强关联性的新知识集合。换言之,知识聚合是从用户需求和解决用户实际问题出发的一种精细化、细粒度层次的聚合活动和方式。
(二)档案知识聚合
档案知识聚合概念由“档案知识”与“知识聚合”概念组配而成。综合以上两个概念,总结出“档案知识聚合”即通过对数字档案资源进行相应的知识抽取和知识表示处理,形成档案知识单元并存入档案知识库,再按照档案用户需求,充分挖掘档案知识单元间的关联,对其进行重新聚集和组合,形成用户感兴趣、能解决实际问题、具有较强知识性的档案知识集合。档案知识聚合由聚合主体、聚合客体以及聚合环境构成。档案知识聚合主体主要是作为档案知识聚合的发起者、实施者和完成者的档案工作者。档案知识聚合客体是指蕴含在档案资源中,对档案用户有重要价值,辅助用户决策或直接帮助其解决实际问题的知识。档案知识聚合环境要素可分为理论环境、硬件环境、技术环境、需求环境。理论环境主要指档案知识、知识聚合、档案管理等档案知识聚合相关理论的发展情况;硬件和技术环境主要指档案知识聚合所需计算机、网络、服务器等基础实施完备情况和运用的知识挖掘技术和聚类技术等发展情况;需求环境是指档案用户对档案知识、档案工作者的要求和期望,这是影响档案知识聚合效果的重要因素。
二、档案知识聚合模式的选择
档案知识聚合模式的选择是档案知识聚合实践模型建构的关键,针对不同的信息资源类型、信息环境以及用户需求,应选取相应的聚合模式。目前,档案知识聚合模式的相关研究较少,因此,档案知识聚合模式的选择需借鉴现有知识聚合模式研究成果。知识聚合模式主要分为基于语义的知识聚合、基于情景的知识聚合、基于计量的知识聚合三大类。这三类知识聚合模式不是相互独立、不相兼容的,可根据实际知识聚合需求进行复合运用。
(一)档案知识聚合模式选择原则
原则是一切行事所依据的准则,档案知识聚合模式的确定也需在一定准则下进行。一是深度性原则。档案知识聚合模式选择首要原则是保证聚合的深度性,只有从档案知识语义及其关联角度对分散的档案知识进行聚合,才能实现对档案资源的深层次、细粒度的知识层面聚合;二是易操作性原则。档案知识聚合模式选择需要考虑具体实践操作的难易程度,应选择技术要求合理、聚合成本可控的聚合模式,尽量在操作性、成本控制和聚合效果之间寻找最佳方案;三是全面性原则。选择档案知识聚合模式时不仅要保证档案文献、档案信息之间的知识聚合,还要选取能对外部资源(图书、网络等)中与目标主题相关知识进行聚合的模式,如此一来,才能保证聚合成果的全面、准确,进一步提升用户的知识获取体验和知识服务满意度;四是保密性原则。在档案知识聚合过程中须保证做到档案知识的安全以及档案用户隐私不被侵犯。因此,所选知识聚合模式须能设计相应的安全扩展功能,保障档案知识在聚合过程过程中不会泄露到公共网络空间中。
(二)基于语义——情景的档案知识聚合模式
在档案知识聚合模式选择原则基础上,参考各类知识聚合模式优劣势,结合档案自身特点,最终将档案知识聚合模式确定为基于语义——情景的档案知识聚合模式。选取该模式的原因有:一是档案知识聚合对象为档案知识,档案知识的深度聚合必须从语义层进行操作。基于本体的知识聚合模式通过构建关于目标主题的档案知识领域本体实现对档案知识语义及其之间关联的准确描述。在此基础上,利用关联数据,将领域本体内的知识与领域外的相关知识进行聚合,保证了档案知識聚合的深度性、全面性。二是档案内容的多样性决定了在对档案资源进行知识聚合时,会涉及大量自然语言文本和图形图像文件。针对此类高维档案资源,可利用主题模型、文本聚类方法进行降维操作,降低对这些文件聚合的难度,满足档案知识聚合的可操作性原则。三是用户档案需求是档案知识聚合重点考虑的因素,如欲实现聚合的全面性,就需实现将用户所处的实时情景(时间、位置等)加入到聚合结果中,而基于情景的知识聚合模式正好能实现上述要求。四是该聚合模式是综合基于语义的知识聚合模式、基于情景的知识聚合模式的各方面优点而得到的,具有良好的扩展性,可设计相应的安全保障功能,进而确保档案知识的信息安全和保密性。
三、档案知识聚合实践模型的构建
档案知识聚合实践模型的构建需要“基于语义——情景”的档案知识聚合理论模式和实际操作要求两大因素的共同支持,在此基础上形成包括:基础层、聚合层、应用层、评估层四级架构的档案知识聚合实践模型,具体如图1所示。
(一)基础层
档案知识聚合实践模型的基础层主要包括资源集合、资源预处理、知识获取、基于本体的知识组织以及知识存储五个组成部分。资源集合是档案知识聚合的最原始资源基础,包含档案资源、图书情报资源、专家知识三类。档案资源、图书情报资源是固定资源,主要指提供知识聚合服务的档案馆、图书馆、情报机构的文献、档案、图书、期刊、报纸等资料。专家知识指档案知识聚合服务过程中领域专家关于资源整理、知识处理等方面的技能和知识。这些知识对知识抽取、知识组织具有重要辅助作用,还可对档案知识聚合结果进行校准、评价和监督。资源预处理是将多种异构资源进行整合、处理,形成计算机可处理的结构化资源的过程,包括资源清理、资源集成、资源转化、资源归约、资源离散化以及特征选择等步骤。[2]知识获取主要是在资源预处理前提下,对结构化的资源进行知识挖掘、知识抽取、知识表示的过程。基于本体的档案知识组织通过构建档案资源知识本体,揭示数字档案资源中所蕴含的档案知识内在关联,将之整理为有序的、相互关联的存在方式,以便档案知识库的知识存储和知识检索。[3]最后,知识库是计算机中可用来对有序组织后的关联知识进行存储的知识集合软件,[4]将合理组织后的档案知识存储到知识库中,可方便用户对某一主题知识的检索,形成关于该主题的知识资源的较浅层次聚类,为深层次知识聚合打下基础。
(二)聚合层
档案知识聚合实践模型的聚合层是对档案、图书和网络等知识进行聚集整合的关键模块。该层以用户档案知识需求为驱动,以基础层提供的各种知识资源为主要聚合客体,以传感器提供的实时情景信息为知识聚合的补充,根据用户的档案知识需求,从知识语义关联的深度,通过计算知识间的语义相似度进行聚类、合并、去重等操作,实现多种异构知识的深层次聚合。档案知识之间的聚合主要通过比对档案知识中词汇、句子在语义上的相似度来实现。针对档案知识目录和正文文字部分,采用文档Shingling改进算法来实现聚合,针对正文图片、图像部分拟通过构建主题模型来对图片、图像进行降维处理,再进行聚合操作。档案知识与外部知识的聚合主要基于某一主题相关知识的需求,对档案知识、图书知识、网络知识实施综合的、全面的聚合操作。在聚合过程中,需要将三种知识在其各自知识领域内进行聚合,再将三者领域内知识聚合结果进行二次聚合,形成完整、全面、高聚合度的知识聚合实例。实时情景信息的补充聚合是档案知识聚合的辅助性活动。档案知识聚合受用户档案知识需求驱动,而用户档案知识需求又受到其所处实时情景的影响。因此,在档案知识聚合过程中能准确获取用户的实时情景信息,并对这些情景信息进行分析、将之与档案知识进行聚合十分关键。
(三)应用层
档案知识聚合结果的可视化呈现是档案知识聚合实践模型的应用层关注的重点问题。档案知识聚合结果的呈现形式受档案知识服务方式和用户的档案知识需求两个关键因素的影响。档案知识服务方式在系统设计层面起作用,若选择在移动社交媒体环境下提供档案知识服务,则适合使用专题文本文档形式展示。在文档中可加入图片、链接、视频等多媒体文件,将档案知识聚合结果以简洁、明了、列举知识点的形式给出,减轻用户阅读负担,增加档案内容的趣味性;若选择门户网站服务方式,则适合采用知识地图展现。知识地图能完整展示网页上所有知识间的层次、关系,便于用户深入了解整个知识内容的体系架构,以领域知识浏览的渐进式方式推进服务[5]。另外,立足用户档案知识需求将为用户提供更加个性化的展示效果,根据系统设计和技术手段的要求,尽量满足用户对聚合结果的展示需求。
(四)评估层
档案知识聚合模型的评估层作为整个模型的重要组成部分,对档案知识聚合可持续发展具有推动作用。首先,评估层直接影响用户档案知识需求的更新,这是档案知识聚合实施的主要驱动力量。其次,领域专家对模型的评估助于档案知识聚合方法的改进和档案知识聚合结果的优化。领域专家凭借丰富的理论积累和实践工作经验,对该模型的聚合方法、聚合效率、聚合结果进行评估,有利于模型的调整和改进,经过“实施→评估→实施→评估…”的良性循环,整个聚合模型会不断进行更新和迭代,最终向最优模型靠拢。最后,评估过程中用户的全程参与使评估过程更加贴近用户需求,保证评估结果的真实性、有效性。另外,档案知识聚合实施主体也可从聚合资源、聚合模式、聚合实践、聚合结果四方面设计档案知识聚合模型评估指标体系,以指导档案知识聚合模型评估工作的稳步推进。
以台湾历史数位图书馆项目为例,该历史数位图书馆作为收录“淡新档案”“明清档案”“古契书”的全文档案资料数据库,基本搭建了涵盖基础层、聚合层、应用层、评估层在内的四级档案知识聚合实践模型。在基础层存储各类档案、文献的全文数据,系统建设人员与档案工作者对全文数据进行关键词(人名、地名、时间、官名等)抓取,制定全文数据的元数据方案,实现档案文献的有序化存储,为档案文献知识化处理做准备。在数据库的聚合层,立足用户的检索和利用需求,搭建“时间”“空间”“主题”三类档案文献组织脉络,借助关联数据实现档案文献的自动聚合。该数据在应用层面提供检索结果关系脉络图,帮助用户探寻目标档案相关的知识。最后,用户在数据库评估层支撑下,借助交互接口向数据库终端反馈此次档案知識服务的真实感受及个人建议,为数据库的升级优化提供重要参考数据。
*本文系国家社会科学基金项目青年项目“社交媒体环境下公共档案资源知识聚合与服务研究”(项目编号:16CTQ032)阶段性研究成果之一。
参考文献:
[1]赵蓉英,王嵩,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014(18):138-143.
[2]梁亚声,徐欣等.数据挖掘原理、算法与应用[M].北京:机械工业出版社,2014:61-93.
[3]张斌,郝琦,魏扣.基于档案知识库的档案知识服务研究[J].档案学通讯,2016(3):51-57.
[4]张斌,魏扣,郝琦.国内外知识库研究现状述评与比较[J].图书情报知识,2016(3):15-25.
[5]王昊,谷俊,苏新宁.本体驱动的知识管理系统模型及其应用研究[J].中国图书馆学报,2013(3):98-110.