《基于DL的数据库概化方法》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

基于DL的数据库概化方法

范文

李婷婷

摘要：该文简单介绍了一种新的数据库概化方法，其主要贡献是在逻辑语言的描述基础上，给出一种通用的方法，对数据库的模式和内容都能起到作用。概化的过程将导致概化晶格的生成，并且每个都给出了精度的特定量度。

关键词：数据库概化；逻辑描述；概化晶格；数据库模式；概化过程

中图分类号：TP311 文献标识码：A 文章编号：1009-3044（2014）14-3217-03

Abstract：In this paper， we propose a new approach of database summarization. The main contribution of our work consists in giving a generic approach， based on description logic language， which operates on both the schema and the database content. The summarization process leads to building a lattice of summaries where each one gives a certain measure of precision.

Key words： database summarization； description logic； summaries lattice； database schema； summaries process

1 概述

随着数据库规模的日益发展，管理和提取大量的数据面临着越来越多的困难。因此，提出一种方法，其能通过数据库概化的发展为用户提供简洁易懂的数据陈述，是非常有意义的。该文旨在提出一种基于描述逻辑理论的新的数据概化方法，并在下文作简要陈述。

2 相关工作

关于如何减小数据库规模，主要可以分为四类：基于一元运算符的方法（垂直和水平减少）；涉及到多维数据库的方法，如OLAP和QuotientCube；基于统计和符号技术的方法；基于模糊集合理论的方法[1，2，3]。

这些方法虽然能有效地减少数据库规模，但是也存在不可忽视的缺点。随着数据量迅速降低，已获得的概化很少包含层次化信息和演绎信息；主要是对元组工作而不是整个数据库；虽然现有的方法都是使用到模糊集合技术，但并不是所有的都能带来显著的结果[4，5]。

本文基于逻辑描述，对概化给出不同的观点和方法，上面提到的这些技术可以被看作本文概化方法的特例。

3 数据库概化

3.1 基本假设

在整篇文章里，我们假设数据库是由UML类图给出，其中包含类和关系。数据库B可以表示为一个三元组，其中，I指定数据库的intension，可以由一组{C1，C2，...，Ci，...，Cn}来表示，n，i∈N（自然数），Ci∈C（所有可能的类）。每个类是由一组属性{A1，A2，...， Ai，...，An}定义，n，i∈N并且Ai∈A（类属性），其中每个属性都有一个域DA。注意，DA指定属性的所有值，既可以是定量的也可以是定性的。R表示关系{R1，R2，...，Ri，...，Rm}，m，i∈N，R∈R（所有可能的关系）。I和R表示数据库模式。E表示extension，其代表了所有类的实例（即数据库元组）。

3.2 定义数据库概化

数据库概化可以被定义为一组结构化数据的简单表示[6]。其可以从三方面入手：数据库模式以及涉及他们之间的类和关系；数据库属性；数据库元组。

这里，我们强调，概化一个数据库并不意味着一定要减少类或属性的数量，也有可能创造新的类或属性。

注意，数据库概化方法必须同时在结构和内容进行上操作，在意义上必须是通用的，并且独立于数据库模型，这也解释了将UML类图作为初始数据库结构的原因。

4 数据库概化方法的概述

数据库概化同时涉及模式，类属性和实例，为此，我们需要解决的主要问题之一是如何同时处理数据库模式和实例，我们希望能够找到一种通用的形式体系，用来合并extension和intention。

4.1 逻辑描述数据库

描述逻辑（DL）是一种常规描述语言，DL对术语（TBOX）和断言描述（ABOX）加以区别。 TBOX包含了概念层次结构和它们之间关系的描述，而ABOX则详细描述了层次结构中的个体实例。下面，我们将详细讲述TBOX和ABOX与我们案例的研究。

4.1.1 TBOX

TBOX包含了它们之间不同的类和可能的关系的定义，如下：

概念：Class <= T（顶层概念）

MotherClass= Class∩[?]generalise.Class

关系：归纳，关联，聚集，... 。该列表并不详尽，我们只给了一些样本加以解释，将我们的数据库模式转换为逻辑表达式。

4.1.2 ABOX

一旦所有的概念和关系被指定，我们像图1一样为断言进行定义：

Class （Circle）

Class （Shape）

generalize （Circle， Shape）

根据TBOX的定义，可以推理得出Shape是一个MotherClass。为了能够在逻辑描述中有效地表达数据库，我们使用Web本体语言OWL DL，上述例子的OWL描述如下：

一旦数据库模式和实例在逻辑描述中被指定，为了概化，一些规则就会被定义用来转换数据库。

4.2 数据库转换

如上所述，数据库在描述逻辑语言时需要正式化，这样其模式和实例就可以通过逻辑表达式来表示。因此，概化是一组新的逻辑表达式，其可以从原有的数据库中导出。数据库转换包括很多方面：数据库重组，属性减少或分组以及实例的减少。事实上，我们可以为概化定义归类，它表示一个层次关系，前类将被通用的类来代替，比如，图1中类Circle将由类Shape代替。

关于属性，需要考虑两种可能性。第一，每个属性都有一定的权重（由将来的数据库用户分配），表明有关的属性是上下文相关的；第二，我们使用聚类算法，为具有一定接近度的属性分组，在这种情况下，我们还可以定义一个与属性权重相关的参数。

关于实例，我们使用符号数据技术来描述具有复杂和多值数据的元组。例如，对数值类型的属性值进行概化，需要定义区间类型的符号对象，其边界可以使用属性的最小和最大值。在标称类型属性情况下，则需要生成一个符号对象，它是所有的属性标称值的集合。为了说明这一点，我们考虑下面的数据库，其中包含类Circle的元组（表1）：

第一种概化方法是根据颜色的不同分，半径值被替换为一个符号对象，它是一个区间，其中边界表示半径的最小值和最大值，如表2所示。

根据表3所示的半径值，相同的元组可以有不同的概化。当然，我们也可以有其他结合，这取决于使用者的需求。

应用上面介绍的转换，一个数据库可以产生不同的概化结果。下面，我们证明可以将所获得的概化在晶格结构中进行组织。

4.3 生成概化晶格

我们用S和使不同概化相互联系的归类Sub表示指生成的概化，把P（S）作为部分概化结果：P（S）={Si/Si[∈]S}，且S1，S2，S3三个概化均包含在S中，Sub有如下性质：

反身性：?S1[∈]P（S）： S1≤S1

对称性： ?S1[∈]P（S）， ?S2[∈]P（S）： S1≤ S2 and S2≤S1? S1 = S2

传递性： ?S1， S2， S3[∈]P（S）3 ： S1≤S2 and S2≤S3 ?S1≤ S3

所以，Sub定义了一个偏序集，（P（S），Sub）定义了一个晶格。它有一个上界和下界，其中上界是初始的数据库，下界是空集。

5 数据库概化性能

我们大体上可以分为两种标准：信息性和一致性。它们是成反比的，概化的越详细，就越不一致。信息性测量了信息通过概化如何被给出，一致性了衡量了定义数据库粒度所需的数据量。信息性与一致性的结合可以被视为选择一个特定概化精度的标准。

6 结束语

在本文中，我们提出了基于描述逻辑的方法来建立数据库概化晶格。我们的提议总共分三步：首先，使用描述逻辑（DL）语言正式化数据库；其次，给原始数据库的简化定义规则，这些规则可用于减小模式，属性和数据库的实例。它并不是单一地简化数据库，它也可以在数据库中添加新类或属性。最后，在晶格结构的转化后，组织获得的不同概化。

至于未来的工作，我们的目标是更多的细化我们的方法以及所有的步骤，并进一步研究前面提及的简化方法。

参考文献：

[1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA，2001.

[2] Saint Paul R， Raschia G， Mouadib N.Database Summarization： The SaintEtiQ System[J].ICD， 2007：1475-1476.

[3] Saint Paul R，Raschia G， Mouadib N.Résumé généraliste de bases de données [M].BDA，2005

[4] Dubois D， Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based，2000.

[5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications （LFA），2006.

[6] Napoli A.Une introduction aux logiques de description[M].Technical Report， INRIA， 1997.

一旦数据库模式和实例在逻辑描述中被指定，为了概化，一些规则就会被定义用来转换数据库。

4.2 数据库转换

第一种概化方法是根据颜色的不同分，半径值被替换为一个符号对象，它是一个区间，其中边界表示半径的最小值和最大值，如表2所示。

根据表3所示的半径值，相同的元组可以有不同的概化。当然，我们也可以有其他结合，这取决于使用者的需求。

应用上面介绍的转换，一个数据库可以产生不同的概化结果。下面，我们证明可以将所获得的概化在晶格结构中进行组织。

4.3 生成概化晶格

反身性：?S1[∈]P（S）： S1≤S1

对称性： ?S1[∈]P（S）， ?S2[∈]P（S）： S1≤ S2 and S2≤S1? S1 = S2

传递性： ?S1， S2， S3[∈]P（S）3 ： S1≤S2 and S2≤S3 ?S1≤ S3

所以，Sub定义了一个偏序集，（P（S），Sub）定义了一个晶格。它有一个上界和下界，其中上界是初始的数据库，下界是空集。

5 数据库概化性能

6 结束语

至于未来的工作，我们的目标是更多的细化我们的方法以及所有的步骤，并进一步研究前面提及的简化方法。

参考文献：

[1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA，2001.

[2] Saint Paul R， Raschia G， Mouadib N.Database Summarization： The SaintEtiQ System[J].ICD， 2007：1475-1476.

[3] Saint Paul R，Raschia G， Mouadib N.Résumé généraliste de bases de données [M].BDA，2005

[4] Dubois D， Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based，2000.

[5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications （LFA），2006.

[6] Napoli A.Une introduction aux logiques de description[M].Technical Report， INRIA， 1997.

一旦数据库模式和实例在逻辑描述中被指定，为了概化，一些规则就会被定义用来转换数据库。

4.2 数据库转换

第一种概化方法是根据颜色的不同分，半径值被替换为一个符号对象，它是一个区间，其中边界表示半径的最小值和最大值，如表2所示。

根据表3所示的半径值，相同的元组可以有不同的概化。当然，我们也可以有其他结合，这取决于使用者的需求。

应用上面介绍的转换，一个数据库可以产生不同的概化结果。下面，我们证明可以将所获得的概化在晶格结构中进行组织。

4.3 生成概化晶格

反身性：?S1[∈]P（S）： S1≤S1

对称性： ?S1[∈]P（S）， ?S2[∈]P（S）： S1≤ S2 and S2≤S1? S1 = S2

传递性： ?S1， S2， S3[∈]P（S）3 ： S1≤S2 and S2≤S3 ?S1≤ S3

所以，Sub定义了一个偏序集，（P（S），Sub）定义了一个晶格。它有一个上界和下界，其中上界是初始的数据库，下界是空集。

5 数据库概化性能

6 结束语

至于未来的工作，我们的目标是更多的细化我们的方法以及所有的步骤，并进一步研究前面提及的简化方法。

参考文献：

[1] Raschia G.Linguistic Summarization of a relation with Fuzzy Background Knowledge[M].BDA，2001.

[2] Saint Paul R， Raschia G， Mouadib N.Database Summarization： The SaintEtiQ System[J].ICD， 2007：1475-1476.

[3] Saint Paul R，Raschia G， Mouadib N.Résumé généraliste de bases de données [M].BDA，2005

[4] Dubois D， Prade H.Fuzzy sets in data summaries—outline of a new approach[C].Proceedings 8th Int. Conf. on Information Processing and Managament of Uncertainty in Knowledge-based，2000.

[5] Naoum L.Représentation de résumés de base de données par prototypes flous [M].14es Rencontres Francophones sur la Logique Floue et ses Applications （LFA），2006.

[6] Napoli A.Une introduction aux logiques de description[M].Technical Report， INRIA， 1997.

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。