标题 | 中文个人名称规范数据属性分析与关联研究 |
范文 | 胡媛 摘?要:名称规范控制工作是图书馆重要的业务工作,随着图书馆文献类型的增多,名称规范工作的重要功能更加凸显,但中文名称规范数据属性的不足制约了其功能的发挥。因此,图书馆只有加强中文个人名称规范数据属性分析,做好关联性研究,才能使图书馆真正回归文化建设的核心地位。文章在梳理我国图书馆中文名称规范理论与实践成果的基础上,进行了数据属性的详尽分析与关联性研究。 中图分类号:G250文献标识码:A文章编号:1003-1588(2019)01-0112-03 关键词:名称规范数据;规范数据属性;关联性 随着社会经济和文化的发展及图书文献的增加,中文书目数据量猛增,编目员在书目管理中经常会遇到同一责任者异名、同名不同责任者、同书异名、同名异书等情况。为了更好地区分同名责任者并集中文献资源,做好图书馆书目的优化管理,中文个人名称规范研究工作愈发重要,尤其是如何从规范数据的内容表达演进到规范数据的属性表达与关系构建,需要以关联性为基础进行严谨细致的分析。 1?我国图书馆中文名称规范历史 图书馆中文名称规范起源于20世纪80年代,在文化部的资助下,北京图书馆制定了规范数据款目著录规则和中国机读规范格式两大草案。而真正进入规范实践层面是1995年北京图书馆中文图书编目部名称规范组的成立,从成立到现在,我国图书馆中文名称规范经历了三个发展阶段。 1.1?第一阶段:维护与制作 从1995年到2000年,这五年时间是中文个人名称规范数据维护与制作的阶段。中文名称来源于权威的工具书,所有信息经考证处理,但本质上却脱离了中文书目数据,与中文书目规范控制的初衷相悖,这一阶段也被认为是奠基发展阶段。 1.2?第二阶段:跨越发展 从2000年到2003年,这三年是我国图书馆中文个人名称跨越式发展的阶段。除了权威工具书的辅助,图书馆开始依据中文普通书目数据进行中文名称规范数据的统计。在这一阶段,图书馆中文个人名称规范取得实质性的研究成果,但是受所编文献限制较为明显。 1.3?第三阶段:积累提升 从2003年到现在,是图书馆中文个人名称规范发展的第三阶段。该阶段总结前两个阶段规范工作开展的不足,更关注管理机制的优化。中文名称规范组被撤销,并入书目数据组,中文个人名称规范与图书编目相融合。该阶段更关注信息技术的创新引用,随着ALEPH系统的应用,一部分规范数据经过系统匹配与书目数据进行了挂接,编目员将另一部分规范数据与书目数据进行比对,并进行了挂接,实现了中文个人名称规范数据对中文书目数据的有效控制。前两个阶段为理论探讨与尝试阶段,第三个阶段则是实践落地实施的阶段。 2?中文个人名称规范的模型建构 2.1?本体选择 本体定义了类及属性,便于中文个人名称的规范。本体词汇与规范数据能准确映射并带动不同资源数据的关联与互动操作。目前,很多本体中的类及属性都能对中文个体名称规范中的MARC字段进行描述,便于后期数据的扩展。本体选择使关联数据后的规范记录与其他资源的兼容性更有保障。SKOS、FOAF等都被用来进行规范数据的描述,基于虚拟规范文档(VIAF)关联数据模型的演进,语义描述的侧重点从概念名称开始转向实体本身。近年来,一种新的中文名称规范Schema.org是以微数据为基础的通用标记词汇集,其除了对原始数据类型进行规范,更包含了新的标记类型。Schema.org对应的事物类型以一定的层次结构组合起来,每一类都有相应属性。该规范的优势体现在三个方面:一是数据类型更丰富,可以详细精准地描述名称规范文档中包含的个人、地点等实体。二是通用性高。一种属性对应多个类,单一的类也可以对应多个子类,避免了重新定义时多个类在其他应用范围的充当,实现了外部扩展关联数据的更精准关注。三是表达特点突出。微数据机制内嵌于网页之中,语义特性增加结构性的描述,词汇表和微数据结合生成丰富的文本信息,便于后期的表达。 2.2?关联性描述建构 对图书馆中文个人名称进行规范,关键点是数据的关联性描述建构。中文个人名称规范中被结构抽取的实体属性及关联较少,一些重要的信息被简单地定义为一般附注,仅仅是内容层面的描述,信息的关联性无法体现。而Schema.org中一些属性的数据类型属于文本范畴,一些属性的数据类型属于数据类范畴,实体与实体间的关联有了现实可能。通过Schema.org,个人可以与其他个人建立关系,属性可以与机构、地点建立关系。因此,基于FRAD对个人的定义,个人可以是使用一个名称的个体集合,无法准确定义身份的个人也可以被划入未区分的记录中,在减少数据冗余的同时也避免不完整记录,实现个人名称规范与未区分记录的关联,将本地的中文个人名称与外部资源进行关联,将定义的实体与其他实体进行关联。 2.3?图书馆中文名称规范的VIAF数据处理 VIAF可以基于图书馆提供的数据为名称数据创建增强型规范记录,增强型的规范记录是由初始名称规范记录和书目记录转换成的规范记录,支持比规范记录本身更为严格的数据匹配过程。其数据处理流程是根据成员机构提供的书目记录,为100—700字段中的每个责任者名称进行规范记录的登记,这来源于书目记录。规范记录与相应的名称规范记录合并形成增强型规范记录,增强型规范文档作为成员机构贡献的文档与VIAF文档进行匹配,匹配成功的文档会作为VIAF记录的初版本,在数据匹配的过程中会有中间结果产生,这意味着一些信息可以作为规范文档信息。匹配是不断修正与规范的动态过程。每一个进行匹配的检索点都是一个单独的匹配点,VIAF会将这些信息进行强与弱的区分,其中强的匹配点有控制号、书的题目、人物的生卒日期、作為主题词的人名及合著者等。如果一个强的匹配点匹配上去了,那么可以肯定这两人是同一个人。而弱的匹配点主要是生卒日期、主题领域、出版形式、语种及出版社等,多个弱匹配点的匹配则可以判定是一个对象。 2.4?中文个人名称规范数据库的建立 为了更好地进行中文个人名称规范数据属性的分析,做好关联性研究,国家图书馆创建了中文名称规范数据库,截止到2017年12月,累计数据达到160余万条,这些累计的数据类型中包括大量的个人名称与团体名称。中文个人名称规范数据库的建立为图书馆个人名称的规范提供了数据支持。例如,国家图书馆、台湾图书馆及上海交通大学图书馆在OPAC中检索著者字段,检全率为60%以上;检索读者不太熟悉的责任者变异名称,检全率也在40%以上。而在中文个人名称规范数据库建立之前,著者字段检索的检全率为45%,读者不太熟悉的责任者变异名称检索的检全率仅为20%。以上数据再次说明,中文个人名称规范数据库的建立对文献资源的检索有显著的促进作用。 3?中文规范名称工作的几点建议 早在20世纪70年代,我国就开始着手图书馆书目名称的规范,中文个人名称的规范开始于20世纪80年代中后期,1995年我国图书馆中文个人名称规范工作步入正轨,2003年之后书目数据制作的实时控制与规范进入快速、稳定发展的时期。针对中文个人名称规范数据属性分析及关联研究,笔者认为图书馆需要特别关注以下几点。 3.1?个人名称目标的更新关注 信息的获取不是一蹴而就的,而是一个相对漫长的过程,变动是名称规范数据的显著特征。在个人名称规范的维护过程中,编目员经常会遇到个人名称目标更改的情况,如果单纯进行手工修改,不仅工作量大,人工操作也很容易出错,因此,通过手工修改的方式进行书目数据的检索是费时费力的事情。而计算机编目系统具有及时、快捷的自动更新功能,但其也有一个客观限制,即图书馆中文个人名称规范数据库对中文书目数据的控制是跨库的,各种中文文献包含其中,而不局限于普通的图书。从本质上说,中文书目数据检索并没有过多地考虑与中文个人名称规范的关联,对书目数据检索点的随意更新都会导致检索错误,目标的更新必须与计算机功能的发挥相结合,确保系统对关联的书目数据进行自动更新。 3.2?关注个人名称非完整形式记录 当前,国家图书馆信息匮乏的名称规范都被划入非完整形式记录范畴中,之所以出现这种情况,多数是因为编目员根据图书的学科属性进行学科附加成分的推测。其原因是多方面的:其一,跨学科著者无法科学推测学科附加成分。其二,翻译者无法科学推测学科附加成分。其三,通俗性读物的读者无法科学推测学科附加成分。其四,主编、编者无法科学推测学科附加成分。因此,要想做好个人名称的规范工作,图书馆必须从名称规范著录规则加以明确,是否所有的责任者都必须进行规范,还是有所选择地进行规范,不解决这个问题,个人名称数据会越来越难以控制。 3.3?虚拟团体名称的规范 中文个人名称的规范研究也涉及虚拟团体名称。一般来说,虚拟团体名称是没有任何隶属及挂靠关系的团体名称,或者这些团体名称本身就是虚拟的、不存在的。如考研命题研究组或教育考试研究中心,从字面上看这些团体貌似很权威的机构,是政府授权的机构,但编目员根本查询不到,虚构这些权威性的团体名称其实是为了提高书目的购买价值,为了在市场上获得稳定的销路,属于一种商业营销手段。这些书目多为考试辅导、公务员考试辅导、选调生考试辅导、注册会计师考试辅导书等。笔者认为,虚拟团体名称不是唯一的,也不具有专属性,在使用上限制少、范畴广,必将成为图书馆中文个人名称规范研究的重点内容,需要图书馆在名称规范数据研究中给予重视。 随着社会文化建设的推进,我国图书馆在资源管理使用中也面临更多的挑战,暴露出更多的问题。不同图书馆名称规范文档资源不同,资源描述方式也不同,管理系统和平台就会存在一定的差异,资源间操作困难,资源共享程度较低,而中文个人名称的规范是一大制约因素。因此,探讨中文个人名称规范问题具有现实必要性。中文个人名称的规范是复杂与系统的,规范文档的整合、虚拟国际规范文档的共享实施、名称规范关联数据的发布是三大主导方向。只有加强图书馆中文个人名称规范数据属性的分析,做好关联性研究,才能使图书馆真正回归文化建设的核心地位。 参考文献: [1] 王瑞云,贾君枝.中文个人名称规范记录的实体匹配与聚簇[J].国家图书馆学刊,2017(2):79-86. [2] 贾君枝,石燕青.中文个人名称规范文档的关联数据化研究[J].情报学报,2016(7):696-703. [3] 石燕青.中文个人名称规范文档共享研究及语义化探索[D].太原:山西大学,2016. [4] 郝嘉树.Web2.0环境下的自规范及其对个人名称规范维护工作的启示[J].国家图书馆学刊,2016(2):16-21. [5] 郝嘉樹.利用开放语义资源丰富个人名称规范数据:基于FOAF的方案设计[J].现代图书情报技术,2016(2):75-82. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。