档案信息智能检索技术的创新应用研究
摘要:本文通过考察档案信息检索技术的应用性状,对引入智能检索技术在档案信息检索建设中的创新应用作了可行性研究,并分析了三种可改善档案信息检索系统用户体验的方法,有助于实现高效的档案信息检索。
关键词:信息检索档案信息智能检索
面对大数据的挑战,探究档案信息智能检索技术的应用方法,既是档案管理理论创新的内在要求,也是档案管理实践创新的迫切需要。本文从剖析现阶段智能检索技术在档案信息检索系统建设中的应用性状入手,提出运用智能检索技术需要采取的创新措施。
一、档案信息智能检索技术的基本概念
档案信息检索技术源于人们对文献的文摘索引与咨询工作需要,这一领域相关的理论研究和技术应用,大致分为手工检索、计算机检索、网络检索和智能检索四个阶段。
所谓“档案信息智能检索技术”,是指由抽词检索与全文检索发展而来,能够融合档案学、图书馆学、情报学、计算机科学等相关领域的先进理念,应用计算机和网络等先进的技术与方法,通过实施语义理解、逻辑推理与学习、数据挖掘、知识发现与关联等诸多环节,对档案信息进行智能化地存储、处理、获取与利用,实现在更高层次上模拟、应用人类的认知功能和智能活动,满足用户对档案信息的各种个性化需求,为广泛的应用领域提供高效率、高质量的档案信息知识检索服务。
二、档案信息智能检索技术的类型与特性
目前,档案信息智能检索技术的应用类型主要有四种:档案布尔逻辑检索技术、档案全文检索技术、档案多媒体内容检索技术和档案搜索引擎检索技术。实践证明,这四种技术虽具有不同的特性优势,但各自的应用效果都尚处于不断探索和完善之中。
(一)档案布尔逻辑检索技术的应用特性
查询文本类档案信息,应用比较普及的检索技术是布尔逻辑检索,其属于定性检索技术,主要采用布尔逻辑表达式来表述用户的需求。布尔逻辑检索技术比较符合人们的思维习惯,且能表达复杂的检索需求。其不足之处是,需使用不同的布尔逻辑运算符把多个检索词连接起来,才能表达检索要求。为弥补布尔模型的缺陷,研究人员现已研发出一些新的信息检索模型,如向量空间模型(简称VSM)检索、扩展布尔模型检索、概率模型检索、超文本检索、分布式检索、p2p检索、网格信息检索等。
(二)档案全文检索技术的应用特性
档案全文检索技术,是从最初的字符串匹配、简单的布尔逻辑检索技术,逐步演进为可对文献中任何字、词、句进行综合匹配的检索技术。由于档案信息资源主要以数据形式存储在管理系统的“信息库”(“资源库”)内,这种传统的高度专业化、规范化、结构化的信息组织与检索方式,已不能满足网络环境下的档案信息检索需求。档案全文检索技术由此应运而生,并成为档案信息检索的主流应用模式。
所谓“档案全文检索技术”,是指对档案信息的全文处理采用“一次扫描技术”即计算机索引程序顺序扫描档案全文,对每一个(字)词建立一个索引,指明该(字)词在文章中出现的次数和位置,用户查询时可根据自己的需要,采用布尔逻辑检索等方法查找原文献中任意字、句、段、节、章等细小单元的信息,还可进行各种统计和内容分析。自从沈阳市档案馆于1991年最早开始光盘原文存储与检索的应用研究以来[1],档案全文检索在我国已由实验向实用化发展。目前,這项技术已与人工智能进行紧密结合,尤其在内容的分析理解、组织表达、知识学习和推理机制等方面,正在力求新的突破和发展。
(三)档案多媒体内容检索技术的应用特性
基于内容的多媒体检索技术(Content-Based Retrieval,CBR),是指利用模式识别、语音识别、图像理解等技术领域可能提供的方法和工具,直接对音频、图形、图像、视频等档案信息进行内容分析,从中提取其听觉、视觉等特征(如颜色、形状、纹理、节奏、旋律、镜头等),并对这些特征加以组织形成索引,用户将其作为检索的依据,以期实现对这类形象化档案信息的查询与定位。
目前,已面世的多媒体档案检索系统,如清华大学档案馆技术部研制的“THDA-MIS多媒体档案及办公管理信息系统”等[2],虽已崭露头角,但效果不甚理想,研究人员仍在进行实验探索。
(四)档案搜索引擎检索技术的应用特性
随着互联网信息技术的快速发展,搜索引擎在保留全文检索技术优势的基础上,进行了脱胎换骨的革新,并得到广泛的应用。但需要指出的是,搜索引擎的功能特性已不完全等同于全文检索功能。它运用特定的计算机程序,不仅能够搜集互联网上的海量档案信息数据,而且在对档案信息数据进行组织和处理后,可为用户提供便捷、高效的检索服务。目前,根据搜索引擎对网络信息进行处理的不同机制,我们将其分为以下三种类型:
一是基于Robot的档案信息搜索引擎。该搜索引擎一般由蜘蛛程序、监控程序、索引数据库和检索程序四部分组成,是利用一种蜘蛛程序(Spider),也称“机器人”(Robot),自动对档案Web站点上的网页进行访问,并提供收集、索引等智能检索服务。
二是主题目录数据库。它根据档案Web站点的内容和性质,将信息集合到一个预先设定的类别中,并把站点的URL和描述归入这个类别,当用户查询某个关键词时,搜索引擎只在这些描述中进行检索,以提高用户所需信息的命中率。鉴于主题目录的用户界面多为等级结构,因而首页设置了最基本的几个大类的入口,可方便用户对感兴趣的主题逐级浏览。
三是Meta档案信息元搜索引擎。它是一个可在统一查询界面同时或分时跨库查询多个档案管理机构搜索引擎的WWW站点。其本身并没有存放网页信息的数据库,但能对同一个检索词同时调用、控制并优化其他多个独立搜索引擎进行检索,经合并、去重、排序、整理后,既能以统一的格式在同一界面集中显示多个搜索引擎返回的结果,也可分别输出单一搜索引擎的检索结果。
三、档案信息智能检索技术的创新措施
(一)档案信息检索结果的优化聚类
提升档案信息检索结果的自动聚类能力,是推进档案信息检索技术提档升级的迫切需要。目前,可改善档案信息检索系统用户查询结果页面之间关联度差的具体方法有三种。
一是提供检索词推荐和查询修正功能。首先,我们要了解、研究“同义词环”(Synonyms Rings,又称同义词表)[3]等概念,并根据“可替换性”(Substitut? ability)让系统分析同义关系。其次,我们要利用同义词自动识别技术(如字面相似度方法、特征模式匹配方法、PageRank链接分析方法等)将自然语言转换为受控词汇,帮助用户构造检索表达式(包含提供相关词推荐功能)。最后,我们要利用服务日志分析功能,分析辨别不同用户提交的查询式,从中找出与用户提交的检索词词形相似、使用频率较高的一组检索词,以利于用户进行查询修正。
二是优化检索结果的输出形式。首先,我们要应用超链接技术,为用户提供与检索具有相同或相近特征的一系列被查詢对象,让用户通过参考别人的检索结果来获得一些启示。其次,我们要显示每份档案的著录级别情况。再次,我们要将相关被查询对象排布在检索结果页的下方,并采用“索引快照”(Snapshot)的模式,将“命中词”标明不同的颜色,突出显示用户的“查询串”,以便用户随时选择是否阅读档案原文。最后,我们要运用“超媒体链接”模式,对检索结果做全方位的“整合检索”[4],以提升档案信息资源的智能集成水平。
三是优化用户词典模块。首先,我们要通过完善和提升档案信息数据挖掘功能,加强对用户在检索中使用的检索词或检索词串等相关历史记录的聚类分析,不断创新和优化具有高可塑性的检索词链接机制。如通过整合优化与档案信息检索词相似(近义)的信息,部署被集成信息的显示顺序。其次,我们要通过“知识链接纽带”聚集显示关联页面,为用户浏览感兴趣的信息提供方便。最后,我们要通过切割分析用户检索语句中的关键词与语法,来抽取其语义信息,并将此信息存入用户词典模块,以扩充档案信息词汇数据库的内容,实现不断优化查询语句精准度之目的。
(二)高级检索技巧的组配应用
目前,在智能信息检索技术尚未达到理想状态的情况下,实现高效的档案信息检索除了要靠知识的合理分类和组织之外,还应充分掌握多种高级检索技巧。可资借鉴的技术措施有以下六种。
一是使用最简单的表述方式。已有经验证明,在多数检索过程中,通常并不需要采用不同寻常的语法或高级操作,所谓简单就是“精准”,即关键词不宜过多、过长。若词汇过长,反而会大大增加分词过程中的时间消耗。
二是合理构造关键词。我们要在分析用户使用习惯性检索词语的基础上,不断规范和简化关键词构造方法,并通过强化系统的纠错功能,帮助用户避免使用多义词、错别字,尤其要主动提示用户尽量使用截词和大小写字母,以及专指性强的语词或短语。
三是巧构检索表达式。运用逻辑运算符、位置运算符、限定符、通配符以及相关高级检索语法来巧构检索提问式,是提高检索效果的有效途径。如果用户对查询语法不熟悉,可根据系统高级检索界面的提示来进行各种检索查询操作。
四是选择描述性词语。我们要帮助用户在查询时注意选择更具描述性、更为具体的语义表达。此外,在精选检索词时,我们要提示用户注意不使用过于通用的词汇,并向用户推荐一个特殊的检索关键词。
五是精确词组检索。所谓“词组检索”(Phrase Search),是指输入两个单词以上的词组,提交搜索引擎检索并反馈结果,这也叫“短语检索”。一般情况下,要使用词组检索,我们可用双引号将两个或更多字词括起来进行精确匹配;如果要求检索结果中必须包含特定查询词,可在其前面冠以“+”;如果要求不含特定查询词,只需在相关字词前添加一个“-”,并在减号前添加一个空格即可,实现精准检索。
六是利用“进阶法”精炼检索或使用同义词、近义词扩大检索范围。例如,用户利用某些检索工具提供的“Refine”或“二次检索”键,可在前一次检索产生的检索结果基础上进一步检索,使检索范围缩小;使用同义词和近义词或某些搜索引擎所具备的自动扩检功能进行相关检索,可扩大检索范围。
*本文为2018年度江苏省档案科技项目“区块链技术对高校档案信息管理方式创新的可行性探究”(项目编号:2018-12)研究成果之一。
参考文献:
[1]马绪超.计算机管理档案的成就、问题与对策[J].湖南档案,1996(2):13.
[2]张旭旭.多媒体档案管理系统的开发及应用[J].清华大学学报(哲学社会科学版),1996(1):93.
[3]马张华,侯汉清,薛春香.文献分类法主题法导论[M].北京:国家图书馆出版社,2009:348.
[4]张倩.依托智能搜索引擎构建档案信息检索系统的策略研究[J].档案与建设,2011(6):33.
作者单位:南京艺术学院