网站首页  词典首页

请输入您要查询的论文:

 

标题 XML聚类在少数民族节日文化挖掘中的应用
范文 任廷艳++罗刚 ??
摘 要:分析了少数民族节日文化挖掘的重要性,介绍了XML聚类的具体过程:XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法,实现了少数民族节日内涵的挖掘。
关键词:民族节日;XML挖掘;XML聚类
DOIDOI:10.11907/rjdk.1511096
中图分类号:TP319
文献标识码:A 文章编号文章编号:1672-7800(2015)012-0140-02
0 引言
节日民俗[1]是岁时民俗的一种独特表现形式,带有强烈的人文因素和浓厚的文化色彩,是一种综合性的文化现象。各民族节日内容丰富多彩,表现形式多种多样,是民族文化的重要组成部分,有着深厚的历史文化渊源。目前对于少数民族节日文化的研究多倾向于对节日表象的描述, 缺少对节日的结构、功能、社会性、价值、意义等方面的深层次研究,缺少对节日文化内涵的深层次挖掘。
本文介绍了XML文档的聚类过程,研究了少数民族节日XML模型表示,提出了文档相似性计算方法,改进了基于划分的XML聚类方法。将XML聚类应用于少数民族节日文化,挖掘民族文化融合的轨迹,有助于少数民族节日的跨文化研究,有助于岁时民俗事象的研究。
1 XML聚类
聚类[2]是一个将数据集划分为若干组或类的过程,并使得同一类中数据对象的相似度较高,不同类中的对象具有较大的差异性。XML文档作为一种半结构化文档,有着灵活的数据表示形式,可以定义多种类型数据。XML文档具有可扩展性和自描述性,用户可以根据需求定义元素。因此,在处理XML聚类时,要从XML文档的特征出发进行聚类。
常见的XML 聚类方法有:①划分聚类方法;②层次聚类方法;③密度聚类方法;④模型聚类方法。XML文档聚类主要有3类:①挖掘XML文档的文本内容;②挖掘XML文档的结构信息;③综合挖掘XML内容与结构信息。XML聚类过程:①XML模型表示:用户自定义元素和结构,设计XML文档的表示方法;②文档相似性计算:设计XML文档的相似度计算方法,相似度计算是信息检索和数据挖掘的基础;③XML聚类:根据XML模型,选择、设计合适的XML 聚类方法;④聚类性能评估:通常采用两种评价指标:纯度和F一measure值来评价聚类算法的总体性能,如图1所示。
图1 XML聚类过程
1.1 XML模型表示
受自然环境、社会环境和社会发展等多方面影响,少数民族节日具有明显的民族性、地方性、时令性, 表现出不同的文化特征。在民族节日中, 纪年性、祭祀性、纪念性、农事性、社交性等类型应有尽有,每个节日活动丰富多彩,都有自己的服饰文化、歌舞文化、饮食文化, 传承底蕴深厚。
用传统的结构数据很难完整地表述节日的相关信息,以及节日各要素之间的关系。借助XML数据表达的灵活性,通过提取少数民族节日的重要特征,定义成XML文档的相应元素,并按照特征之间的关系,定义元素之间的结构,得到XML文档如下所示:

民族
节日名称
节日日期
持续天数节日性质
节日活动
节日起源

受地方性影响,同一个节日在不同地区的时间、持续天数、活动内容都存在差异。XML文档中的、、等元素需要进一步细化,添加子元素,细化后的元素如下:


节日日期因地域不同有所区别




节日日期因地域不同有所区别


服饰
饮食
歌舞
活动




节日日期因地域不同有所区别


1.2 文档相似性计算
XML相似性度量方法有:树编辑距离、基于边集的方法、子树匹配等。选择不同的XML文档相似性计算方法,直接影响到最终的聚类结果。
以上定义的少数民族节日XML模型表示有以下特点:①XML文档中元素个数多;②不同层次包含相同元素,但元素表示的内容不同,直接计算XML文档之间的相似性较困难。通过改进基于子树匹配的XML文档相似性计算方法,从XML文档的路径、节点层次、权重综合计算相似性。
计算两个XML文档的相似性方法的核心思想是:首先将XML文档转化成相应的XML文档树。通过选择关键节点(元素),将两个XML文档树划分为若干子树,筛选出需要计算的候选子树,将候选子树用候选子树序列表示,通过对比序列的相同元素,计算两个XML文档中所有候选子树的相似性。最后综合所有候选子树相似性的平均值,得到整个XML文档树的相似性,该相似性计算方法已经在不同数据集实验中证明了其有效性。

1.3 XML聚类
k-means 算法是经典的划分聚类方法。k-means基本思想是:给定一个有n个文档的数据集。首先随机选择k 个文档作为聚类簇心,然后将剩余n-k个文档分别与k 个聚类簇心比较,将其加入到最为相似的聚类簇心所在的聚类,然后通过重新计算各聚类的平均值更新聚类簇心,重复这个过程直到满足收敛条件或者达到迭代次数。k-means的缺点是聚类的文档数n必须确定。聚类簇心的选择不同,会导致不同的聚类结果。
本文在k-means 算法的基础上进行了改进,给出了一种基于划分的增量式聚类算法,算法的基本思想是:初始化为0个聚类,设定最小相似度阈值λ,每次输入一个XML文档T进行处理。如果是第一次输入XML文档T,则生成第一个聚类,并设置文档T为当前聚类的簇心。以后每次输入一个XML文档T,通过改进基于子树匹配的XML文档相似性计算方法,计算该文档和当前已有聚类簇心的相似性。如果相似性大于最小相似度阈值λ,将该文档并入相似性最大的聚类,并重新计算当前聚类的簇心;如果相似度小于最小相似度阈值λ,则生成一个新的聚类。该算法可随时处理XML文档,不需要设定聚类的文档数。另外,不需要随机选择聚类簇心,可动态调整聚类个数和聚类簇心,生成高质量的聚类。
1.4 聚类性能评估
文中对聚类性能的评估采用的评价指标是F-measure值。通过在实验中使用不同的数据集生成的聚类,计算一个聚类类别和预定义类别的召回率和准确率的调和平均,得到最终整体聚类的F-measure值。
实验中,选择120个少数民族节日作为测试数据,采用上述划分算法得到5个聚类,召回率为84.5%,准确率为93.2%,证明了该聚类算法的可行性。
2 结语
少数民族节日具有丰富的文化内涵,利用XML技术对其进行挖掘具有现实意义。本文将少数民族节日用XML文档表示,便于少数民族节日信息的存储和传播。同时提出了基于子树匹配的相似性计算方法,和基于划分的增量式聚类算法,以此挖掘少数民族节日的深层次文化信息。本文方法有助于民族文化的研究,有利于实现民族文化数字化建设。
参考文献参考文献:
[1] 龚德全.30年来贵州世居民族岁时节日文化研究综述[J].贵州民族学院学报:哲学社会科学版,2008 (3):116-120.
[2] 王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2420.
[3] 何峰,姜守旭,王宏志.基于子树匹配的相似 xml 连接方法的研究[J].智能计算机与应用,2011 ,1(4):1-3.
[4] 于亚君,姜 瑛.一种XML的树匹配改进方法[J].计算机工程与应用,2012,48(20):177-183.
[5] 赵斌,张永胜.基于 Bagging 的 XML 文档集成聚类研究[J].计算机工程与应用,2009,45 (14):138-140.
(责任编辑:杜能钢)
随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2024/12/23 7:40:00