网站首页  词典首页

请输入您要查询的论文:

 

标题 基于DL的数据库概化方法
范文

    李婷婷

    摘要:该文简单介绍了一种新的数据库概化方法,其主要贡献是在逻辑语言的描述基础上,给出一种通用的方法,对数据库的模式和内容都能起到作用。概化的过程将导致概化晶格的生成,并且每个都给出了精度的特定量度。

    关键词:数据库概化;逻辑描述;概化晶格;数据库模式;概化过程

    中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)14-3217-03

    Abstract:In this paper, we propose a new approach of database summarization. The main contribution of our work consists in giving a generic approach, based on description logic language, which operates on both the schema and the database content. The summarization process leads to building a lattice of summaries where each one gives a certain measure of precision.

    Key words: database summarization; description logic; summaries lattice; database schema; summaries process

    1 概述

    随着数据库规模的日益发展,管理和提取大量的数据面临着越来越多的困难。因此,提出一种方法,其能通过数据库概化的发展为用户提供简洁易懂的数据陈述,是非常有意义的。该文旨在提出一种基于描述逻辑理论的新的数据概化方法,并在下文作简要陈述。

    2 相关工作

    关于如何减小数据库规模,主要可以分为四类:基于一元运算符的方法(垂直和水平减少);涉及到多维数据库的方法,如OLAP和QuotientCube;基于统计和符号技术的方法;基于模糊集合理论的方法[1,2,3]。

    这些方法虽然能有效地减少数据库规模,但是也存在不可忽视的缺点。随着数据量迅速降低,已获得的概化很少包含层次化信息和演绎信息;主要是对元组工作而不是整个数据库;虽然现有的方法都是使用到模糊集合技术,但并不是所有的都能带来显著的结果[4,5]。

    本文基于逻辑描述,对概化给出不同的观点和方法,上面提到的这些技术可以被看作本文概化方法的特例。

    3 数据库概化

    3.1 基本假设

    在整篇文章里,我们假设数据库是由UML类图给出,其中包含类和关系。数据库B可以表示为一个三元组,其中,I指定数据库的intension,可以由一组{C1,C2,...,Ci,...,Cn}来表示,n,i∈N(自然数),Ci∈C(所有可能的类)。每个类是由一组属性{A1,A2,..., Ai,...,An}定义,n,i∈N并且Ai∈A(类属性),其中每个属性都有一个域DA。注意,DA指定属性的所有值,既可以是定量的也可以是定性的。R表示关系{R1,R2,...,Ri,...,Rm},m,i∈N,R∈R(所有可能的关系)。I和R表示数据库模式。E表示extension,其代表了所有类的实例(即数据库元组)。

    3.2 定义数据库概化

    数据库概化可以被定义为一组结构化数据的简单表示[6]。其可以从三方面入手:数据库模式以及涉及他们之间的类和关系;数据库属性;数据库元组。

    这里,我们强调,概化一个数据库并不意味着一定要减少类或属性的数量,也有可能创造新的类或属性。

    注意,数据库概化方法必须同时在结构和内容进行上操作,在意义上必须是通用的,并且独立于数据库模型,这也解释了将UML类图作为初始数据库结构的原因。

    4 数据库概化方法的概述

    数据库概化同时涉及模式,类属性和实例,为此,我们需要解决的主要问题之一是如何同时处理数据库模式和实例,我们希望能够找到一种通用的形式体系,用来合并extension和intention。

    4.1 逻辑描述数据库

    描述逻辑(DL)是一种常规描述语言,DL对术语(TBOX)和断言描述(ABOX)加以区别。 TBOX包含了概念层次结构和它们之间关系的描述,而ABOX则详细描述了层次结构中的个体实例。下面,我们将详细讲述TBOX和ABOX与我们案例的研究。

    4.1.1 TBOX

    TBOX包含了它们之间不同的类和可能的关系的定义,如下:

    概念:Class <= T(顶层概念)

    MotherClass= Class∩[?]generalise.Class

    关系:归纳,关联,聚集,... 。该列表并不详尽,我们只给了一些样本加以解释,将我们的数据库模式转换为逻辑表达式。

    4.1.2 ABOX

    一旦所有的概念和关系被指定,我们像图1一样为断言进行定义:

    Class (Circle)

    Class (Shape)

    generalize (Circle, Shape)

    根据TBOX的定义,可以推理得出Shape是一个MotherClass。为了能够在逻辑描述中有效地表达数据库,我们使用Web本体语言OWL DL,上述例子的OWL描述如下:

    

    

    

    

    

    

    

    

    

    

    一旦数据库模式和实例在逻辑描述中被指定,为了概化,一些规则就会被定义用来转换数据库。

    4.2 数据库转换

    如上所述,数据库在描述逻辑语言时需要正式化,这样其模式和实例就可以通过逻辑表达式来表示。因此,概化是一组新的逻辑表达式,其可以从原有的数据库中导出。数据库转换包括很多方面:数据库重组,属性减少或分组以及实例的减少。事实上,我们可以为概化定义归类,它表示一个层次关系,前类将被通用的类来代替,比如,图1中类Circle将由类Shape代替。

    关于属性,需要考虑两种可能性。第一,每个属性都有一定的权重(由将来的数据库用户分配),表明有关的属性是上下文相关的;第二,我们使用聚类算法,为具有一定接近度的属性分组,在这种情况下,我们还可以定义一个与属性权重相关的参数。

    关于实例,我们使用符号数据技术来描述具有复杂和多值数据的元组。例如,对数值类型的属性值进行概化,需要定义区间类型的符号对象,其边界可以使用属性的最小和最大值。在标称类型属性情况下,则需要生成一个符号对象,它是所有的属性标称值的集合。为了说明这一点,我们考虑下面的数据库,其中包含类Circle的元组(表1):

    第一种概化方法是根据颜色的不同分,半径值被替换为一个符号对象,它是一个区间,其中边界表示半径的最小值和最大值,如表2所示。

    根据表3所示的半径值,相同的元组可以有不同的概化。当然,我们也可以有其他结合,这取决于使用者的需求。

    应用上面介绍的转换,一个数据库可以产生不同的概化结果。下面,我们证明可以将所获得的概化在晶格结构中进行组织。

    4.3 生成概化晶格

    我们用S和使不同概化相互联系的归类Sub表示指生成的概化,把P(S)作为部分概化结果:P(S)={Si/Si[∈]S},且S1,S2,S3三个概化均包含在S中,Sub有如下性质:

    反身性:?S1[∈]P(S) : S1≤S1

    对称性: ?S1[∈]P(S) , ?S2[∈]P(S) : S1≤ S2 and S2≤S1? S1 = S2

    传递性: ?S1, S2, S3[∈]P(S)3 : S1≤S2 and S2≤S3 ?S1≤ S3

    所以,Sub定义了一个偏序集,(P(S),Sub)定义了一个晶格。它有一个上界和下界,其中上界是初始的数据库,下界是空集。

    5 数据库概化性能

    我们大体上可以分为两种标准:信息性和一致性。它们是成反比的,概化的越详细,就越不一致。信息性测量了信息通过概化如何被给出,一致性了衡量了定义数据库粒度所需的数据量。信息性与一致性的结合可以被视为选择一个特定概化精度的标准。

    6 结束语

    在本文中,我们提出了基于描述逻辑的方法来建立数据库概化晶格。我们的提议总共分三步:首先,使用描述逻辑(DL)语言正式化数据库;其次,给原始数据库的简化定义规则,这些规则可用于减小模式,属性和数据库的实例。它并不是单一地简化数据库,它也可以在数据库中添加新类或属性。最后,在晶格结构的转化后,组织获得的不同概化。

    至于未来的工作,我们的目标是更多的细化我们的方法以及所有的步骤,并进一步研究前面提及的简化方法。

    参考文献:

    [1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA,2001.

    [2] Saint Paul R, Raschia G, Mouadib N.Database Summarization: The SaintEtiQ System[J].ICD, 2007:1475-1476.

    [3] Saint Paul R,Raschia G, Mouadib N.Résumé généraliste de bases de données [M].BDA,2005

    [4] Dubois D, Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based,2000.

    [5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications (LFA),2006.

    [6] Napoli A.Une introduction aux logiques de description[M].Technical Report, INRIA, 1997.

    

    

    

    

    

    

    

    

    一旦数据库模式和实例在逻辑描述中被指定,为了概化,一些规则就会被定义用来转换数据库。

    4.2 数据库转换

    如上所述,数据库在描述逻辑语言时需要正式化,这样其模式和实例就可以通过逻辑表达式来表示。因此,概化是一组新的逻辑表达式,其可以从原有的数据库中导出。数据库转换包括很多方面:数据库重组,属性减少或分组以及实例的减少。事实上,我们可以为概化定义归类,它表示一个层次关系,前类将被通用的类来代替,比如,图1中类Circle将由类Shape代替。

    关于属性,需要考虑两种可能性。第一,每个属性都有一定的权重(由将来的数据库用户分配),表明有关的属性是上下文相关的;第二,我们使用聚类算法,为具有一定接近度的属性分组,在这种情况下,我们还可以定义一个与属性权重相关的参数。

    关于实例,我们使用符号数据技术来描述具有复杂和多值数据的元组。例如,对数值类型的属性值进行概化,需要定义区间类型的符号对象,其边界可以使用属性的最小和最大值。在标称类型属性情况下,则需要生成一个符号对象,它是所有的属性标称值的集合。为了说明这一点,我们考虑下面的数据库,其中包含类Circle的元组(表1):

    第一种概化方法是根据颜色的不同分,半径值被替换为一个符号对象,它是一个区间,其中边界表示半径的最小值和最大值,如表2所示。

    根据表3所示的半径值,相同的元组可以有不同的概化。当然,我们也可以有其他结合,这取决于使用者的需求。

    应用上面介绍的转换,一个数据库可以产生不同的概化结果。下面,我们证明可以将所获得的概化在晶格结构中进行组织。

    4.3 生成概化晶格

    我们用S和使不同概化相互联系的归类Sub表示指生成的概化,把P(S)作为部分概化结果:P(S)={Si/Si[∈]S},且S1,S2,S3三个概化均包含在S中,Sub有如下性质:

    反身性:?S1[∈]P(S) : S1≤S1

    对称性: ?S1[∈]P(S) , ?S2[∈]P(S) : S1≤ S2 and S2≤S1? S1 = S2

    传递性: ?S1, S2, S3[∈]P(S)3 : S1≤S2 and S2≤S3 ?S1≤ S3

    所以,Sub定义了一个偏序集,(P(S),Sub)定义了一个晶格。它有一个上界和下界,其中上界是初始的数据库,下界是空集。

    5 数据库概化性能

    我们大体上可以分为两种标准:信息性和一致性。它们是成反比的,概化的越详细,就越不一致。信息性测量了信息通过概化如何被给出,一致性了衡量了定义数据库粒度所需的数据量。信息性与一致性的结合可以被视为选择一个特定概化精度的标准。

    6 结束语

    在本文中,我们提出了基于描述逻辑的方法来建立数据库概化晶格。我们的提议总共分三步:首先,使用描述逻辑(DL)语言正式化数据库;其次,给原始数据库的简化定义规则,这些规则可用于减小模式,属性和数据库的实例。它并不是单一地简化数据库,它也可以在数据库中添加新类或属性。最后,在晶格结构的转化后,组织获得的不同概化。

    至于未来的工作,我们的目标是更多的细化我们的方法以及所有的步骤,并进一步研究前面提及的简化方法。

    参考文献:

    [1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA,2001.

    [2] Saint Paul R, Raschia G, Mouadib N.Database Summarization: The SaintEtiQ System[J].ICD, 2007:1475-1476.

    [3] Saint Paul R,Raschia G, Mouadib N.Résumé généraliste de bases de données [M].BDA,2005

    [4] Dubois D, Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based,2000.

    [5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications (LFA),2006.

    [6] Napoli A.Une introduction aux logiques de description[M].Technical Report, INRIA, 1997.

    

    

    

    

    

    

    

    

    一旦数据库模式和实例在逻辑描述中被指定,为了概化,一些规则就会被定义用来转换数据库。

    4.2 数据库转换

    如上所述,数据库在描述逻辑语言时需要正式化,这样其模式和实例就可以通过逻辑表达式来表示。因此,概化是一组新的逻辑表达式,其可以从原有的数据库中导出。数据库转换包括很多方面:数据库重组,属性减少或分组以及实例的减少。事实上,我们可以为概化定义归类,它表示一个层次关系,前类将被通用的类来代替,比如,图1中类Circle将由类Shape代替。

    关于属性,需要考虑两种可能性。第一,每个属性都有一定的权重(由将来的数据库用户分配),表明有关的属性是上下文相关的;第二,我们使用聚类算法,为具有一定接近度的属性分组,在这种情况下,我们还可以定义一个与属性权重相关的参数。

    关于实例,我们使用符号数据技术来描述具有复杂和多值数据的元组。例如,对数值类型的属性值进行概化,需要定义区间类型的符号对象,其边界可以使用属性的最小和最大值。在标称类型属性情况下,则需要生成一个符号对象,它是所有的属性标称值的集合。为了说明这一点,我们考虑下面的数据库,其中包含类Circle的元组(表1):

    第一种概化方法是根据颜色的不同分,半径值被替换为一个符号对象,它是一个区间,其中边界表示半径的最小值和最大值,如表2所示。

    根据表3所示的半径值,相同的元组可以有不同的概化。当然,我们也可以有其他结合,这取决于使用者的需求。

    应用上面介绍的转换,一个数据库可以产生不同的概化结果。下面,我们证明可以将所获得的概化在晶格结构中进行组织。

    4.3 生成概化晶格

    我们用S和使不同概化相互联系的归类Sub表示指生成的概化,把P(S)作为部分概化结果:P(S)={Si/Si[∈]S},且S1,S2,S3三个概化均包含在S中,Sub有如下性质:

    反身性:?S1[∈]P(S) : S1≤S1

    对称性: ?S1[∈]P(S) , ?S2[∈]P(S) : S1≤ S2 and S2≤S1? S1 = S2

    传递性: ?S1, S2, S3[∈]P(S)3 : S1≤S2 and S2≤S3 ?S1≤ S3

    所以,Sub定义了一个偏序集,(P(S),Sub)定义了一个晶格。它有一个上界和下界,其中上界是初始的数据库,下界是空集。

    5 数据库概化性能

    我们大体上可以分为两种标准:信息性和一致性。它们是成反比的,概化的越详细,就越不一致。信息性测量了信息通过概化如何被给出,一致性了衡量了定义数据库粒度所需的数据量。信息性与一致性的结合可以被视为选择一个特定概化精度的标准。

    6 结束语

    在本文中,我们提出了基于描述逻辑的方法来建立数据库概化晶格。我们的提议总共分三步:首先,使用描述逻辑(DL)语言正式化数据库;其次,给原始数据库的简化定义规则,这些规则可用于减小模式,属性和数据库的实例。它并不是单一地简化数据库,它也可以在数据库中添加新类或属性。最后,在晶格结构的转化后,组织获得的不同概化。

    至于未来的工作,我们的目标是更多的细化我们的方法以及所有的步骤,并进一步研究前面提及的简化方法。

    参考文献:

    [1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA,2001.

    [2] Saint Paul R, Raschia G, Mouadib N.Database Summarization: The SaintEtiQ System[J].ICD, 2007:1475-1476.

    [3] Saint Paul R,Raschia G, Mouadib N.Résumé généraliste de bases de données [M].BDA,2005

    [4] Dubois D, Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based,2000.

    [5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications (LFA),2006.

    [6] Napoli A.Une introduction aux logiques de description[M].Technical Report, INRIA, 1997.

    

    

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/5 22:55:58