人工智能背景下档案网站优化策略研究

    周文泓 李新功

    摘 要:本文以理论构建的方法概述了人工智能并梳理了人工智能与档案网站建设的结合点,即有限的档案在线利用、在线档案产品需充分的投入、互动与社区功能有限。由此,本文提出在人工智能的背景下,档案网站可从如下方面予以优化:以建设整体智能中心为目标、融合数据管理理念、加强人工智能服务。

    关键词:人工智能;档案网站;网站优化

    Abstract: The paper took the method of theory modeling to introduce artificial intelligence and its connecting points with archives websites like limited archival access, limited efforts to produce archival products, and limited interactive and community function. Then the paper proposed that archives websites should make use of artificial intelligence to construct website as intelligent center as a whole, establish methodology of data management and strengthen the artificial intelligence service.

    Keywords: Artificial intelligence; Archives website; Website optimization

    1 引言

    在移動互联网、大数据、超级计算、传感网、脑科学等新理论新技术以及经济社会发展强烈需求的共同驱动下,人工智能迅速发展,成为各领域重点关注与发展的方向。2017年7月,国务院印发《新一代人工智能发展规划》,进一步明确了人工智能在当下社会发展中的重要性。这对档案领域而言,亦是其数字转型中的重要契机。档案管理既需要处理大量的信息资源,亦要通过技术优化管理,这些无一不与人工智能相关。

    作为与社会活动紧密相关的应用领域,如何应用人工智能需要得到档案实践与研究领域的关注。在研究层面,档案智能检索系统的研究一定程度上与之相关 [1],通过大数据建设与优化档案馆的研究的重要方向之一就是实现档案馆的智能化,智慧档案馆的建设亦在倡导与人工智能的结合 [2]。然而,总的来说,当前的研究中尚未将人工智能正式与档案管理直接关联,例如,人工智能为什么能用于档案管理、用于档案管理的哪些方面、如何应用、应用的结果是什么都没有得到解答。这样的状况同样显示在实践领域中,除了在管理中实现了一定程度的自动化,或是在档案馆建筑有一定的智能元素外,尚未有全面与人工智能结合的档案馆落成。

    因而,如何在人工智能背景下优化档案管理将有诸多可探讨的方向。鉴于档案网站作为档案馆线上门户是关键的数字档案资源整合与服务入口,本文将围绕档案网站建设探索如何通过人工智能优化档案管理,阐明为何以档案网站为切入点、档案网站与人工智能结合的要点是什么、如何将在档案网站优化中同人工智能相结合以及二者结合之后的结果是什么。

    2 人工智能框架下档案网站升级的触发点

    人工智能的迅速发展将深刻改变信息活动的方式与形态,这也为档案管理方法与工具的升级提供了契机,也为档案理论中构思的更加高级的档案馆形态的落实提供了工具与技术。在这其中,档案网站建设是重要的切入点。对应于实体档案馆的智能化,线上的数字档案馆同样是当下档案实践的焦点,档案网站作为重要的门户是建设数字档案馆的基础和实现的功能之一。因而,应用人工智能提供的理论、技术、基础设施是大势所趋,档案网站长期以来已是档案信息化建设中不可或缺的组成,需与信息技术同步发展。因而,在人工智能的框架下升级档案网站建设将是档案领域同人工智能融合的重要方面。

    当前,档案网站建设已是多数档案馆的基本构件,尽管限于理念、所处地区、设计框架等多方面的原因,各国与地区的档案网站建设水平不尽一致,但基本功能相近,主要区别在于功能的完善程度。综合以美国、加拿大、澳大利亚、英国等发达国家与我国省级地方的档案网站来看,当前档案网站是提供档案服务以及档案机构与社会展开互动的重要平台,作为呈现档案资源整合与服务的门户,档案网站的基本功能是要满足用户的档案需求。随着社会的发展,通过网站提供档案服务的内容与形式要求将更加多元化,相比当前更多是提供静态、单向或延时服务,档案网站智能化是必然要求。然而,即便是发达国家,亦有需升级优化之处,而人工智能能够提供一定的方法、工具与技术予以解决,这也正是为何在人工智能的框架下探讨档案网站优化建设的根本原因。因而,从档案网站的功能来看,需借助人工智能升级档案网站:

    2.1 有限的档案在线利用。在线提供档案利用服务是档案网站的核心功能,当前主要通过两类途径实现:一是在线提供全文,二是通过目录检索明确所需档案,再通过线上申请获取档案。相比于馆藏中丰富的档案资源,档案的在线利用并不充分,问题主要显现在如下方面:

    第一,非数字格式的档案还处于数字化的进程中,当前各国的档案数字化完成度有待提升。由于数字化涉及计划、档案选择、扫描、著录等一系列流程,当前有限的人力和财力使得数字化处于较缓慢的进程中。例如,美国档案与文件署保管了125亿页的文件,但得到数字化的不过2.35亿页[3]。第二,由于多数档案仅能通过目录检索以线上申请结合人工审核的方式获取,这使得档案难以实时获取且可能需要若干工作日的等待,甚至当前多数档案机构并未提供针对用户在线申请的档案服务,用户仍然需要线下实地申请。第三,网站的在线检索不尽完善,一方面在于数字化的档案未能充分数据化或原生数字档案的异构化,信息组织深度不足,档案不能完成数据层面的自定义,档案之间难以互联互通,未能达到机器学习的要求,从而难以高效提供精确的档案满足用户需求。另一方面,网站未能提供全面的在线专业指导或辅助,用户在检索中遇到的问题难以及时解决。例如,我国当前的档案网站并未实现全文检索,对所需档案了解有限的用户检索策略难以与档案网站提供目录、主题词或关键词匹配[4]。第四,数字化档案与原生数字档案均存在智能开放问题,即技术上能够实现在线检索却限于保障档案利益相关者的权益所需面临开放上的问题。例如,开放哪些档案、开放档案中的哪部分内容、对谁开放,合适开放是精细化的工作,亦需要更加严密的规则支持,在目前更多地依赖人工审查的状况下开放受限,未能充分应用技术也导致开放存在一定问题。

    2.2 在线档案产品需充分的投入。档案网站除了提供未加工的档案以外,还通过资源整合与挖掘提供各类数字档案产品,例如,网上展览支持教育的历史档案专题。这些档案产品在内容与形式上同原始档案相比有着更高的要求,例如丰富的知识量、多样性、趣味性、可视化等被视作档案产品应当凸显的特征。因而,在线档案产品的开发需要充分的投入,但目前存在如下局限:

    第一,如何选择合适的主题以及相应的档案开发整体性的产品。在这其中,用户的需求如何更好识别,社会相关热点如何及时抓取,如何明确所需的档案等都面临大量工作。第二,如何深度设计与开发档案产品。例如,从我国现有网站提供的整合类产品来看,图片式的平面展览较多,如何提供在形式与内容上更多元且更具文化与视觉效应的产品、如何从整体上设计产品体系与搭配不同产品都较具难度。第三,档案产品开发需借助专业的技术挖掘、整合与呈现现有资源,用哪些技术、怎么用对档案管理人员都有较大的挑战。在这其中,人工智能通过深度学习、数据挖掘等都可以帮助解决问题。

    2.3 互动与社区功能有限。档案网站的互动功能有限在各项围绕档案网站的研究中得到凸显,当前主要是通过社交媒体来补足互动方面的局限。然而同档案网站相比,社交媒体无法同时提供充足的信息资源,且社交媒体是依托第三方平台提供服务,无论是功能、资源还是自主性上都无法替代档案网站。在我国,当前即使开通了社交媒体账号的机构也往往无法实现实时互动。当前,参与式的档案馆被视作是档案馆未来的发展方向,档案网站作为重要载体亦在构建与完善相应的功能。例如,美国档案与文件署在其网站开设了众包平台dashboard,为了更好地实现档案馆工作人员、志愿者以及公众的共享与交流建立了历史社区(history hub)。

    然而,即使是网站建设较好的国家或地区,依然在互动方面存有不足:第一,直接性的互动有限。当前网站主要通过邮箱、电话、在线表单、社交媒体等形式提供互动通道,本质上是依托档案网站提供互动方式,并不是用户与档案网站展开互动。第二,及时性不足,通过上述的形式与档案机构建立联系时,用户往往需要一定的时间才能得到反馈。例如,英国国家档案馆、加拿大图书档案馆、美国档案与文件署等对用户在线提交的档案利用申请的反馈时间规定在一到五个工作日。第三,技术未能有效支持公众参与,当前的公众参与的任务发布、成果的审核、参与过程中的相互交流等并不顺畅,往往需要人工的干预,亦要在有限的数据分析的情况下优化公众参与的任务与流程,这在人员及其能力有限的情况下往往呈现出公众参与不足以及成果质量参差不齐的情况,这也是各国的众包项目中一致指出的问题[5]。第四,个性化服务不足,当前的网站主要是提供通用性的功能,除了如加拿大图书与档案馆推出了个人档案门户的板块外,多数档案网站主要是在被动接收用户的指令后提供内容与形式都一致的服务,未能识别用户的特点与需求充分提供个性化的服务。

    3 档案网站智能化策略

    当前档案网站资源整合与服务、互动与社区功能尚需进一步拓展与深化。智能化建设技术发展背景下档案网站的升级正是功能升级的有效途径。随着人工智能进入发展新阶段,且我国乃至世界范围内人工智能得到重点关注与倡导,档案网站的智能化建设不再处于构想或是准备阶段,而是能够依托技术实现落地。当前档案网站呈现的不足体现出三大问题:一是各功能的智能化水平均较低;二是数据管理理念与方法未融合于网站运营中;三是网站运营依赖于人工支持与运营团队人员有限的矛盾较大。基于这三大问题,开展系统的档案网站智能化建设。

    3.1 以建设整体智能中心为目标。建设整体智能中心意味着档案网站的智能化建设是全面、系统、深入的,具体表现为:第一,档案网站不仅是档案机构同用户互动的中介平台,而且档案机构能够作为相对独立的主体分析与解决运营的相关问题,以智能主体的定位开展工作。(1)档案网站能自主整合档案资源并提供各类档案服务从而与用户良好互动。(2)檔案网站可以同档案机构或工作人员互动以明确档案网站的运营需求从而获取相应的内容与技术等资源。(3)档案网站可以自主运营,包括组织档案网站上活动的不同主体的社区建设。第二,档案网站的智能化建设不是针对某项功能,而是要实现各个功能模块协同的智能化。一方面,对现有功能予以智能化升级,例如,可以依靠人工智能优化当前展览的组织与呈现方面,可参考挪威国家博物馆正在试验的机器学习和深度神经网络管理馆藏,机器视觉增加元数据以识别和标记图像,机器根据“脱离情境的捕捉和凝视” 技术呈现信息原貌,从而在展览上往往呈现出不同于人类逻辑的意外结果。另一方面,开发基于人工智能的新功能,依托人工智能在机器学习、数据挖掘、信息整合、可视化等方面的优势,可以开拓更加多元的档案信息服务模块。

    3.2 融合数据管理理念。档案网站的运营优化本质上如何将档案机构的资源从内容与形式上同用户匹配,很大程度上关乎两大方面的事务:一是档案机构对档案网站的输入;二是档案网站对用户的输出以及用户对网站的反馈乃至贡献,这又直接体现为供求问题。因而,为了实现档案资源供应与用户档案需求的平衡,人工智能的框架要在档案网站运营中融合数据管理理念:第一,明晰可供利用的档案资产,并明确档案管理的规则。即可通过档案网站实现在线开放与利用的档案有哪些以及这些档案如何开放与在线利用要有精细化的规则,包括利用的形式与内容有何要求、用户权责如何设定、开放与利用的权限是什么等,从而能够为网站智能化提供基本的规则。第二,实现档案的数据化,保证档案可以支持深度的检索和整合。这需要做好数据的组织与挖掘工作,依靠语义网与本体实现档案的数据分解和关联,从数据层面完成档案的自定义,从而将档案整合为可支持机器学习的数据资源。例如,当前我国的地质资料馆已实现对档案的数据化,从而能够根据各种维度与属性呈现档案并可应用可视化方式实现利用。这样的方式应当在档案网站的档案产品中凸显,并且要利用人工智能打造更多形式的产品。第三,依托人工智能及时收集各类用户行为的数据,用以反馈档案运营的优势与不足之处,从而明确能够给用户提供的资源以及如何提供。通过精细化的运营管理,实现网站资源整合、页面布局、功能模块设计等多方面的实时调整与优化。例如,可以借鉴美国国家美术馆使用Dexibit的工具分析用户访问数据并预测未来的访问情况[6]。

    3.3 加强人工智能服务。为弥补当前网站相对静态的呈现,人工智能服务的导入也将是档案网站智能化建设的核心内容之一,从而将档案网站从单向性为主的门户转向更具智能与关联意识的数字平台。在无法提供足够的工作人员应对来自不同用户的档案申请、反馈或咨询时,档案网站的人工智能服务的强化是必要的,从而将人力从自动化的工作中解放出来。这既可以令档案机构专注于创造性的工作,又可以依托人工智能在一定标准框架内提供更加优质的服务。一方面,在用户端提供档案网站助手服务,提升个性化服务的系统与智能化。即通过这项技术,档案在线申请利用、政策咨询、意见反馈乃至实体档案馆的路线个性化制定等活动都可以实时提出并获得答案。另一方面,在资源端,人工智能帮助档案工作人员完成档案的整合、开发、利用以及保管等工作。面对海量且正在即时增长的信息,人工智能可以帮助承担信息的标记、分类、描述等工作,尤其是对照片、视频等非文本信息,更可以通过大数据、机器学习、深度神经网络等进行更加系统的整合与开发,从而保证能够在用户端提供充分的档案信息资源,更能依据用户端的需求与数据完成无缝链接的服务工作。

    参考文献:

    [1]朱久兰.档案信息智能检索[J].档案学通讯,1994(4):57-59.

    [2]杨智勇,周枫.试析智慧档案馆的兴起与未来发展[J].档案学通讯,2015(4):45-50.

    [3]NARA. DRAFT FY 2018 - FY 2022 Strategic Plan[EB/OL].[2017-12-21]2017-09-11.https://usnationalarchives.github.io/strategic-plan/goal1/.

    [4]王晨.省级档案网站资源检索现状及其问题研究[J].浙江档案,2016(9):10-12.

    [5]顾丽娅.国外档案众包实践及启示[J].浙江档案,2015(7):13-15.

    [6]弘博网.人工智能:连接博物馆与公众的新方式[EB/OL].[2017-12-21]2017-11-30.http://www.hongbowang.net/e/wap/show.php?classid=59&id=8308&style=0&bclassid=58&cid=59&cpage=0.

    (作者單位:周文泓,四川大学公共管理学院;李新功,中国人民大学信息资源管理学院 来稿日期:2019-02-02)