基于“智能+ ”档案管理初探
周枫 吕东伟
摘要:人工智能的发展正推动着以“智能+”为标志的普适性智能社会的到来。本文指出,人工智能在档案管理中的应用,不仅是档案管理业务的紧迫需要,更是社会需求的必然要求。智能+档案管理的应用场景涵盖智能收集、智能分类、智能利用等档案管理全业务流程,给传统档案工作带来了巨大变革。智能+档案管理时代,业务核心在于特定场景规则的提出与相应模型的训练,因此智能+档案管理时代,需要更加专业的档案人员。
关键词:人工智能智能+档案管理应用场景
在数据集聚、技术突破、国家战略等多重力量的驱动下,人工智能(AI)迎来了一个爆发期,从2016年Alpha? Go一鸣惊人到如今AI“飞入寻常百姓家”,人工智能成为科技创新的“超级风口”。人工智能已经进入到场景应用阶段,深入落地到各行各业以解决不同场景的问题,也给档案工作带来新的发展机遇。与以往其他技术不同,人工智能几乎可以在档案管理的各个业务环节中进行应用,这也就意味着我们需要站在战略高度,更加全面深入地加强对人工智能在档案工作中应用的研究。一、人工智能技术与应用发展
人工智能是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学,目前在自然语言处理、模式识别、专家系统、图像识别、语音识别、机器学习、智能机器人等方面已经发展得较为成熟。
自然语言处理是指让计算机拥有人类般的文本处理能力,如识别文档的核心议题、提取相关内容并制作成报表等,其主要原理包括句法语义分析、信息抽取、文本挖掘、信息检索、人机交互等。自然语言处理主要应用于智能问答、机器翻译、文本分类、文本摘要等方面。
模式识别是指对表征事物或现象的各种形式的信息进行处理和分析,从而达到对样本进行分类的目的,是文本、语音、图像等识别的一项基础技术。
专家系统可看作一类具有专门知识的计算机智能程序系统,通过运用人工智能中的推理技术来求解和模拟通常由专家才能解决的各种复杂问题。目前专家系统在医疗诊断、化学和地质数据分析等方面的应用,已达到较高水平。
图像识别是指从图像中识别出物体、场景和活动的能力,如自动驾驶、医疗影像分析、人脸识别等都属于图像识别的应用;语音识别是指将语音转化为文字,并对其进行识别认知和处理,如科大讯飞中的实时翻译、苹果手机中的Siri等。
机器学习是指机器从样本中,通过特定算法,自动去寻找、提炼相关规律,并进行预测。机器学习正成为人工智能研究的核心之一,并广泛应用于自然语言处理、专家系统、語音图像识别等领域。
智能机器人在生活中已随处可见,如扫地机器人、陪伴机器人,目前在安防监控、互动交流等方面应用较广。
综上,人工智能在数据、信息与知识的提取、分类、分析等方面具有强大的技术优势,而恰好档案工作的主要内容也在于数据的采集、处理、分析等,因此,人工智能在数据的规范性、准确性、一致性等方面的思维、技术和方法,能够有效促进档案资源的收集、管理、利用等业务工作。二、智能+档案管理:档案工作发展的必然
人工智能时代已经到来,并正深刻地冲击着传统社会与生态。2013年,牛津大学的两位学者在研究报告《就业的未来》中指出,估计到2033年,电话销售人员和保险业务员有99%的概率失业,而档案管理员有76%的可能性。[1]在档案管理领域进行人工智能的应用势在必行。
(一)管理业务需要
大数据时代,电子化、数据化、数量庞大、增长迅速、类型多样的档案资源给档案管理带来了巨大的挑战。如何实现海量档案的收集?如何更有效率地进行鉴定?如何实现半结构化、非结构化文档的检索?如何实现数据档案的管理……尽管我们应用了很多技术来提升档案管理水平,但总体来看,档案工作仍然属于“劳动密集型”,很多工作依赖于人力,也很难跟上时代发展需要,迫切需要采取新模式、新思路来进行革新。同时,“人工智能时代,程式化的、重复性的、仅依靠记忆与练习就可以掌握的技能将是最没有价值的,几乎一定可以由机器完成”,[2]毋庸讳言,此类业务在档案部门也大量存在,唯有更好地学习、应用、融合人工智能,通过人工智能来赋能传统档案工作,我们才能不被时代抛弃,才能更好地促进档案工作发展。
(二)服务需求倒逼
“我们被信息淹没,但是更渴求知识”,奈斯比特的困惑在大数据时代更加凸显。从简单的档案借阅到希望提供专业化、精品化、知识化的服务内容和个性化、一站式、互动式服务方式,用户需求不断升级。在这个开放、竞争的社会中,当需求满足途径和方式日趋多元时,服务成为市场竞争的核心要素。如何帮助用户从海量档案资源中进行快速发现和获取,如何深度挖掘用户特征,提供个性化、多元化、人性化的智慧档案服务,将决定着档案部门的生存和地位,而这也正如特里·库克所言:“如果我们这些信息工作者能够引导利用者从泛滥的、具体的信息过渡到知识,甚至于智慧,我们在新时代的工作、地位就会得到保证”[3]。三、智能+档案管理的应用场景探索
人工智能可用于档案管理的多个环节,并且由于主要借助机器进行,很多的规则和数据可以复用,因此大量业务可以同步进行,如在收集的同时可以进行整理、鉴定、著录等,从而很好地提高业务效率和准确性。
(一)数字档案资源智能归档
大数据时代电子文件的爆发式增长给归档带来较大困难。基于模式识别、机器学习、自然语言处理等技术,能够实现归档范围内电子文件的自动归档,并抓取相关元数据信息,同时还可结合库藏抓取网络上的各类文档,构成多元、立体的馆藏体系。针对归档文件质量较难把控的痛点,基于相关质量审核要点并经过机器学习形成归档文件质量审核模型,可以很好地发现并标注归档文件质量问题,提升归档文件质量。
(二)数字档案资源智能整理
基于自然语言处理、机器学习、模式识别等技术,可以实现档案的自动分类和排列组合。一是全宗内的档案分类,如自动将相关文档按文书、会计、基建或年度、组织机构、问题等进行分类;二是直接提取文件的相关特征,并进行快速、准确的排列组合,如正文与附件、正本与定稿、来文与复文等自动组合。
(三)档案智能鉴定划控辅助
档案鉴定大多需要考虑内容、作者、时间、完整程度等进行综合判断,相对比较抽象,对专业性要求比较高。而采用专家系统和机器学习,可以从成熟的鉴定样本中寻找规律,并运用这些规律对各类档案的内容价值进行判断,作为档案人员鉴定的参考。这样做不仅可以统一鉴定标准,而且可以有效提高鉴定效率。
(四)智能化安全保管
借助机器视觉和语音识别的相关技术,可以让计算机具备像人类一样的观察和识别能力,目前常见的应用场景为库房安全。如应用人脸识别、语音识别、指纹识别、虹膜识别等智能识别技术建立的安防系统,通过相关传感器实现库房环境的智能监控等。
(五)智能化多维统计
档案统计依赖于元数据的多寡和著录颗粒度的高低,传统环境下档案统计维度相对较少、可视化程度相对较低。基于“智能+档案统计”,可以采取自然语言处理技术,提取档案的相关内容和属性信息形成多类标签,并建立标签之间的内在关联,进而实现档案统计的按需调取、多维呈现。
(六)智能化档案检索
基于“智能+档案检索”,能够将检索从基于关键词级别提高到基于知识级别,得到优化检索结果,使查全率和查准率能够更好地满足检索需求,具体包括三个步骤:一是基于自然语言处理,提取档案形式特征,自动进入档案系统形成相关检索项,减少人工录入,提高著录效率;二是运用机器学习,对档案内容进行智能标引、智能摘取,并以规范化的检索语言赋予检索标识;三是基于语义搜索,更好地理解用户的真实意图,提供更加精确的检索服务。
(七)智能化档案编研
目前,利用数据撰写新闻已经比较成熟,甚至基于人工智能写诗也已成为现实,如微软小冰所作的诗集《阳光失去了玻璃窗》已正式出版,成为人类历史上首部100%由人工智能创作的诗集。尽管目前智能写作与人的创造性还有一定差距,但至少已初具雏形。在档案领域,针对一些相对简单的编研工作,如档案文件汇编、档案文摘汇编、大事记、组织沿革、专题概要等,可以尝试利用机器学习技术,实现智能编研。
(八)智能化档案利用
档案利用领域是人工智能应用的重点。一是运用自然语言处理,对檔案内容进行数据挖掘,深层次发掘档案资源价值,多层次地满足用户需求,并根据需要形成知识图谱;二是通过自然语言处理和模式识别,分析用户特征和需求,对用户进行画像,并进行个性化、情景化的智能推送;三是充分利用智能机器人、聊天机器人,加强与用户的沟通交流与互动。四、智能+档案管理的发展思考
尽管人工智能可以很好地帮助档案部门解决很多问题,但人工智能技术不是万能的,尚无法完全代替人类智能,在智能+档案管理的过程中,核心工作依然由档案人员负责。
(一)人工智能时代需要更清晰地了解业务规则
经过几十年的积累,人工智能的应用在技术实现上已经不是关键。在技术之上,最核心的问题是特定场景规则的提出和模型的应用。对于档案领域而言,如果文档模板或结构本身相对比较固定,那么人工智能处理起来会相对容易一些。例如针对文书档案,由于有《党政机关电子公文格式规范》的约束,其文档结构相对比较统一、文档要素相对比较齐全,因此规则的制定与提取相对简单,进行人工智能处理时会更加容易,应用效果也相对比较明显。而针对科技档案或一些专门档案,由于其文档特点不一,对规则的提取和样本的训练一定程度上会加大处理难度。
(二)人工智能时代需要更加专业的人员
每一次技术革命所产生的新行业都会带来对应的新岗位,旧岗位被淘汰所释放的资源会被重新定义和分配,正如轿车的普及消灭了黄包车夫这个岗位,却创造了出租车司机这个新的岗位。因此,当人工智能将档案工作者从烦琐的常规档案管理事务中解放出来时,并不意味着档案人员被完全替代了。他们或许不再叫档案管理员,或许将由数据工程师来从事档案业务。同时,人工智能时代,程式化、重复性的档案业务将由机器完成,但那些更有意义、更具价值且更能体现档案人员综合素质的技能,如规则的设定和把握、档案价值的判断、深层次的编研、各类创新利用等,仍然将由档案人员来完成。同时,我们还需要更深入地了解相关人工智能技术,从而实现技术与规则的深度融合。
用新兴的人工智能为古老的档案工作装上聪明的“大脑”,让“故纸堆”重焕生机,这是当前档案管理的前沿模式和巨大变革,甚至可能是档案发展史上的一次“工业革命”。“纵观档案发展史,从简牍到电子,档案工作无不是适应科技发展而不断更新档案管理内容和手段才获取更大发展的。”[4]对于档案工作者而言,要跟得上技术的发展变化,才能不被智能之风吹远。
*本文系2017年国家档案局科技项目“OFD格式在证券行业技术档案管理中的应用研究”的部分成果,项目编号:2017-X-20。
注释及参考文献:
[1]尤瓦尔·赫拉利.未来简史[M].林俊宏,译.北京:中信出版集团股份有限公司,2015:17.
[2]李开复,王咏刚.人工智能[M].北京:文化发展出版社,2017:251.
[3]特里·库克,刘越男.电子文件与纸质文件观念:后保管及后现代主义社会里信息与档案管理中面临的一场革命[J].山西档案,1997(2):7-13.
[4]杨冬权.杨冬权在全国数字档案馆(室)建设推进会上的讲话[N].中国档案报,2013-10-18(001).
作者单位:上海证券交易所