标题 | 元数据管理中语义绑定服务的功能及其实现形式 |
范文 | 作者简介:谢剑敏(1986-),女,助理馆员,硕士研究生。研究方向:信息资源管理与利用,发表论文4篇。·信息咨询与服务· 〔摘要〕语义绑定服务(SBS)是一个管理语义绑定集合的稳定服务,这种绑定代表了数据与元数据、元数据与知识实体之间的关联。了解语义绑定服务的功能及其实现形式将有助于更好地进行元数据管理、开展信息组织工作。 〔关键词〕元数据;元数据管理;语义绑定 DOI:10.3969/j.issn.1008-0821.2014.04.017 〔中图分类号〕TP31113〔文献标识码〕A〔文章编号〕1008-0821(2014)04-0078-04 Semantic Binding Service Metadata Management Function and its Realization FormXie Jianmin (Library,Guangdong University of Finance,Guangzhou 510521,China) 〔Abstract〕Semantic binding service(SBS)is a management service semantic binding set,this binding represents the association between data and metadata,metadata and knowledge entities.To understand the semantic binding service function and its realization form,will help us to better development of metadata management,information organization. 〔Keywords〕metadata;metadata management;semantic binding 在一个重要的应用领域中,数据及服务提供者都日渐将他们的资源提供给社会群体以作复杂工作流程中的公共性二次使用。然而,为了让那些资源在实际应用中能发挥实际效用,供应商也必须提供能描述数据和服务特性及功能的诠释,这就是电子科学时代的例子。诠释的目的是使用基于计算机信息库及计算分析工具来验证假设进行总结、搜索模式或者说明一个已经广为人知的事实。在电子科学领域中,一个很常见的现象就是供应商和消费者分别对资源添加注释来使他们的发现更加简便或可用来记录,即将它们看作一个实验中的使用细节。因此,当按比例放大至成千上万的资源及这些资源的使用者时,注释本身就会形成一个新的、庞大的、由分布在很多组织中的异类数据构成的汇编,没有一个中心来控制它们的维护。新的信息环境下,知识性的应用对元数据管理提出了新挑战,包括分配、权限控制、访问的统一格式及适时的升级。作为一种复杂的数据资源类型,元数据需要一些形式的管理来发挥它的实际作用。语义绑定服务可以说是一种有效的元数据管理方法。 1语义绑定与语义绑定服务的概念 11元数据的语义结构 元数据的语义结构是元数据系统的一个层面,对元数据元素进行定义。它定义元数据元素以及描述其内容。它可以描述内容形成的标准,内容的表现标准和可允许的内容含量值。所以元数据的语义结构包含两层意思:定义层和标准层。定义层指的是对元数据元素的一套定义,赋予其基本的语义特征和使其与其他元素进行区分。因此定义层需满足两个主要功能性要求:描述和区分。标准层指的是元数据元素的一套模式,它包括支配元数据元素分配含量值的原则,条件和指导准则。这些标准定义了信息的来源,内容的形成,表现以及范围。所以标准层包含了3种任务规则:形成规则,表现规则,可允许规则。一些元数据模式是采用独立的标准,无须遵循特定的标准,但有些要依据一定标准来选取,例如MARC记录所依据的AACRII。 总的来说,元数据模式的定义需用自然语言来表达。为了更好阅读和理解定义和解释元数据的元素需用人类可理解的语言来操作。但是,元数据是基于机读的数据,所以这些定义的语义不仅可以为人类而且也能被机器所识别。因此元数据模式的定义需涵盖两个语义层:暗示层,利于人类理解;正规层,可供机器识别。标准层通常通过命名空间制度来定义,这些制度决定和维持了标准的存在。命名空间通过URI进行定义,是一种可以解决命名冲突的机制。元数据元素的语义层是通过命名空间来体现它的标准层[1]。 12现行的元数据管理技术与方法 元数据的概念并不新鲜,其在数据仓库环境中的作用和重要性是不言而喻的。元数据是数据仓库中的一个重要组成部分,元数据管理系统则是构建、管理、维护和使用数据仓库系统的核心部件。如果一个数据仓库中没有元数据,那么用户就不知道如何进行分析[2]。在资源描述框架架构数据方面,存储和查询技术的发展支配着元数据在管理中的地位。Jena与Sesame是两个最出名并被广泛使用的例子:这些系统由传统的相关数据存储能力支撑,这一能力是指能提供丰富的、细粒状的APIS用来操作和访问RDF数据,同时能用不同的语言对它进行查询,包括W3CS、Sparql。甲骨文10gRDF是近期新增的,它支持庞大的数据集并拥有与查询语言强度有关的深层查询能力,而这一语言与本地查询有关。除了基本功能外,RDF在语境化、分配、可扩展性等领域的增强也受到了广泛关注。元数据操作在文件操作系统中所占的比例高达50%以上,高效的元数据管理大致可分为基于子树和基于Hash2类。由于位于同一目录中的文件具有较大的访问相关性,因此,一般认为基于子树的划分机制具有较高的性能。传统的元数据分布管理大多采用静态子树管理机制,该机制性能较好,但缺乏动态的调整策略。而文件系统访问模式具有动态性,也容易引发元数据集群负载不平衡,从而影响元数据集群的整体吞吐率[3]。因此,元数据管理方法对提升大规模存储系统的性能至关重要。当前存在一些维持明晰元数据与它所描述资源之间关联的模型。然而,它们依赖于特设机制,在html或xhtml文件中包含元数据最常见的一种方法就是在文件中将元素应用于任何地方。这一元素可以用属性值对文件特性进行描述。虽然能使用其他用户定义的特性,但规范的特性包括作者、过期时间、关键词列表等等。这也广泛应用于语义网中,例如知识获取团体及简单的html实体扩展。Xhtml20倡导一种二中择一的方式去连接实体和对它们的描述,那么元数据就不会与文件内容相混淆,它会被包含于一个独立的文件或文件本身隔开的部分中。包含元数据的文件可以通过使用前端的连接元素而附属于html文件。这一特性允许对文件内外的资源进行参照[4]。 13语义绑定 “语义绑定”(Semantic Binding),也称为“语义约束”、“语义连接”,从句子结构的角度,它旨在分析出文本中某个部分对另一部分的约束作用信息。语义绑定多种多样,从语义的角度分类,有动作的方式约束、整体局部约束、时间关系约束、因果关系约束等。每一种语义关系绑定都有若干不同的文本表达方法,一些工作旨在通过大规模文档分析,找出具有一定代表性的表达方法,即通常所说的模板;然后以此去匹配判定新的文本,这种模板通常带有各种特征,或是词性的约束,或是有必然出现的信号词,或是有特殊的语法结构。但是可以令人信服的大规模文档的收集不是一件容易的事情[5]。语义网代表着互联网的发展方向。虽然计算机科学与信息技术发展迅速,但是从目前的互联网向语义网的转变却是一个漫长的过程。在当前对语义技术的应用状况下,并非语义越多、表达越丰富就越好,知识表达语言的深度和广度是由用户对自动化的需求决定的,即用户对自动化的需求要与语义技术的发展状况相匹配。14语义绑定服务 英国曼彻斯特大学的信息组织专家Paolo Missier及其合作者在一篇有关元数据管理需求的论文中提出了一个中间件来用于元数据管理。这个中间件的设计是基于这样一种实体:即忽略它们在格式上与内容上的差异,对所有的元数据来说,有两种简单的特性是相同的。在定义上,它们始终和一些基础资源有关联并且在解释元数据时有一些单独的数据信息是可供选择的。例如,可以用注释。把这样的数据信息作为实体来参考,目的就是强调这样一个事实:它是用来解释元数据的。这就是一个语义网典型而并非特有的设置。按这种定义,一个相关的架构或XML数据同样也是一个知识实体。把资源与元数据注释之间的联系称为语义绑定,把管理服务称为语义绑定服务(Semantic Binding Service)。语义绑定服务的目标是为元数据资源的管理提供一个统一的原始集,也就是说,其在生命周期内都在创造、访问、追踪及摧毁那些资源。然而,很显著的一点是它无法在异质元数据中提供互通性,这在其自己的权限中也是个难题。因为不同的RDF诠释会涉及不同的实体,因而使得第三方应用在整合它们时会变得比较困难。一般而言,SBS会提供一种统一的方法来维持资源、数据和知识实体间的正确联系,无论它们何时改变,元数据元素中格式和内容的差异都会被忽略。 2语义绑定服务的实现方式 21多重语义绑定 图1反映的是一个简易科学工作流程的多重语义绑定。工作流程提供者和使用者也许会为相同的工作流程提供多重解释,而这些工作流程服务于不同目的且可能会采纳不同的注释类型和格式。图表中的KEGG是京都基因与基因组百科全书,它是基因组破译方面的数据库。Abbr最初是在HTML40中引入的,表示它所含的文本是一个更长的单词或短语。Ids是英文“Intrusion Detection Systems”的缩写,中文意思是“入侵检测系统”。Sawsdl则是基于Web服务语义标注语言。该图表由3部分构成,左列说明的是工作流程的输入至输出,当中会涉及访问途径与图片获取并且应将KEGG基本地址纳入其中。右列是当前存在的参考本体,而中间列则是元数据内容的语义绑定。3部分结合要说明的是:一个工作流程中,不同的工作人员对同一概念会做出不同的注释,而网络对此概念又有新的解释,因此需要对这些不同的注释进行语义绑定,指定参考本体,使各工作单位更好地相互理解。Sawsdl为wsdl和XMLSchema提供了一种增加语义注释的机制,使得wsdl和XMLSchema中的组件可以与外部的语义概念模型联系起来,它大大简化了为Web服务增加语义信息的工作,有利于推动语义Web服务的发展[2]。图1多重语义绑定 22语义绑定的状态转换 元数据自出现之日起就是动态的:一个文件的注释经常会更新或接替其它的注释。然而,虽然一些有关语义繁殖数据的升级至相关元数据的工作已经完成了,但现行的技术还是难以支持元数据的动态性。成功的元数据管理在它变得无效时就应该被察觉,并告知用户状态的转变。这些工作要完全实现自动化是不太可能的,因此需要进行人工管理。 笔者把图2中作为整个关联一部分的数据与只是数据资源分别称为Ressb与KEsb,语义绑定是有效状态中的产物,这个图阐明了引起数据资源、知识资源及元数据内容变化的事件,其常常会引出一个新的有效的语义绑定。两个临时生效状态的语义绑定会要求当中一个产生生效过程,它会更新一部分或所有的Ressb、KEsb或costentsb,从而引起从有效状态到无效状态的转变。对于一个生效的Ressb,这样的过程会决定新资源的现存元数据是否仍然有效并且会提供一个从语义绑定参考至Ressb的更新。例如,用元数据来对工作流程中的变化进行注释,这一过程会决定相同的元数据能否与新的工作流程相连。对于一个生效的KEsb而言,问题就在于要决定能否用新的本体论去解释旧的元数据。评价本体论演变对现有知识基础的影响问题已经在很多地方被提了出来。存档状态为不再有效的老化语义绑定提供了一种保留方式,这个状态只能被使用于某些描述机制的工作所支撑。当中一个已存档的语义绑定会变回活跃状态。可以通过引入子系统来扩展这个基础模型,产生的结果就能对元数据的作用做出合理的定义。图2通用的语义绑定状态连接图 23语义绑定服务模型 SBS与OGSA—DAIS模型类似。关于后者,OGSA数据权限及整合方案是由open Grid论坛的DAIS工作组管理的,他们提出了一个类似的但是限制更大的方法。当中只有一个定义了文摘操作或一个Grid计算环境中数据资源标准化使用的单一界面,而忽视架构或数据模型。这个标准包括对数据提供具体的、明确模型访问的几种关系,如对相关数据访问的OGSA—DAIR。它对异质数据资源提供了统一的途径。当数据模型和内容不可知时,它能在服务范围内封装请求。SBS附带提供了具体的元数据管理原函数。现有的元数据知识库、文件管理服务器、RDF仓库管理器或文件系统,在数据作用未知的情况下提供了低等级的数据管理。SBS通过提供统一的元数据管理层来利用这个功能。这个管理层能感知到资源、注释、注释生命周期及参考知识实体之间的关系。SBS对于应用而言是有利的,存储和访问元数据实现了双重作用:它把语义绑定看作一个简单的、统一的模型而去维系资源和注释之间的固定关系,为管理提供一个单一的服务界面,在Grid计算环境下可以以分配的方式进行调配。 3语义绑定服务的功能 31语义绑定服务的功能图3SBS的功能 图3展示的是语义绑定服务的功能,右边部分是一个语义绑定组,由语义绑定工厂来进行多重语义绑定的制造,这些SB与元数据查询都同资源描述框架(RDF)有关。而左边的用户组则通过远程门户网站网络服务、网络服务资源生命周期、参考内容更新等方式与SB组发生关系。SBS对一个语义绑定的元数据相关应用而言是 一个单一的联系点,对SBS及其相关元数据内容的检索而言亦是如此。图3所阐述的SBS的功能包括创造与摧毁SBS及与元数据生命周期有关的维持它们的逻辑状况。当中,WSRP规范定义了访问及查询资源动态状况信息的协议。WSRL规范定义了网络服务资源销毁的最基本界面。SBS也对元数据内容提供基于服务的访问。通过推进详细应用的查询,作为服务寻求的指定部分至不加以解释的元数据仓库。当前已有数据管理领域的专家提出增加一种简单的反馈扩展至SBS界面中来让用户发现具体元数据的相关信息,例如存储语言及框架,将SBs与SBS相结合能使元数据进行无缝分配且会提供一个常见的访问界面,它提供对元数据的大范围访问而忽略各独立后台元数据知识库的限制。SBS在执行时会被看作一个状态稳定的S—OGSA服务,它与网络服务框架标准有关,并已在GT4平台上开展。 4结语 随着语义万维网(有人称之为Web30)的发展,元数据在网络资源语义化快速发展的浪潮中扮演着越来越重要的角色。作为数字资源揭示和利用的一项重要技术,元数据正向实现机器自动处理的方向发展,而语义绑定服务是一种有效的元数据管理方法,如何更好地运用语义绑定服务,使机器能够理解资源信息所代表的语义,并能通过语义分析来进行知识的推理分析,也是网络信息组织研究的一个热点。本文从元数据的语义和语义绑定的概念入手,说明语义绑定服务在元数据管理上的有效性,并提出了基于元数据的网络搜索语义表达,希望能够进一步提高用户对数据的查询和检索,满足用户对海量数据资源的快速获取和定位需求,从而更好地进行元数据管理、开展信息组织工作。 参考文献 [1]rainzen.元数据,语义,元数据语义[EB/OL].http:∥rainzen.bokee.com/5333224.html,2013-10-01. [2]王东龙,陈建,李茂青.数据仓库中元数据管理技术[J].武汉理工大学学报,2005,(1):26-30. [3]穆飞,薛巍,等.基于定位目录的元数据管理方法[J].清华大学学报:自然科学版,2009,(8):35-39. [4]Paoio Missier,Pinar Alper,Oscar Corcho,Lan Dunlop,Carole Goble.Requirements and Services for Metadata Management.Semantic Knowledge Management[EB].http:∥www.cs.man.ac.uk/~pmissier/docs/w5mis.pdf,2011-06-28. [5]李欢.依存关系树在文本多语义约束检测中的运用[J].小型微型计算机系统,2010,(6):12-16. (本文责任编辑:马卓) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。