标题 | XML聚类在少数民族节日文化挖掘中的应用 |
范文 | 任廷艳++罗刚 ?? 摘 要:分析了少数民族节日文化挖掘的重要性,介绍了XML聚类的具体过程:XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法,实现了少数民族节日内涵的挖掘。 关键词:民族节日;XML挖掘;XML聚类 DOIDOI:10.11907/rjdk.1511096 中图分类号:TP319 文献标识码:A 文章编号文章编号:1672-7800(2015)012-0140-02 0 引言 节日民俗[1]是岁时民俗的一种独特表现形式,带有强烈的人文因素和浓厚的文化色彩,是一种综合性的文化现象。各民族节日内容丰富多彩,表现形式多种多样,是民族文化的重要组成部分,有着深厚的历史文化渊源。目前对于少数民族节日文化的研究多倾向于对节日表象的描述, 缺少对节日的结构、功能、社会性、价值、意义等方面的深层次研究,缺少对节日文化内涵的深层次挖掘。 本文介绍了XML文档的聚类过程,研究了少数民族节日XML模型表示,提出了文档相似性计算方法,改进了基于划分的XML聚类方法。将XML聚类应用于少数民族节日文化,挖掘民族文化融合的轨迹,有助于少数民族节日的跨文化研究,有助于岁时民俗事象的研究。 1 XML聚类 聚类[2]是一个将数据集划分为若干组或类的过程,并使得同一类中数据对象的相似度较高,不同类中的对象具有较大的差异性。XML文档作为一种半结构化文档,有着灵活的数据表示形式,可以定义多种类型数据。XML文档具有可扩展性和自描述性,用户可以根据需求定义元素。因此,在处理XML聚类时,要从XML文档的特征出发进行聚类。 常见的XML 聚类方法有:①划分聚类方法;②层次聚类方法;③密度聚类方法;④模型聚类方法。XML文档聚类主要有3类:①挖掘XML文档的文本内容;②挖掘XML文档的结构信息;③综合挖掘XML内容与结构信息。XML聚类过程:①XML模型表示:用户自定义元素和结构,设计XML文档的表示方法;②文档相似性计算:设计XML文档的相似度计算方法,相似度计算是信息检索和数据挖掘的基础;③XML聚类:根据XML模型,选择、设计合适的XML 聚类方法;④聚类性能评估:通常采用两种评价指标:纯度和F一measure值来评价聚类算法的总体性能,如图1所示。 图1 XML聚类过程 1.1 XML模型表示 受自然环境、社会环境和社会发展等多方面影响,少数民族节日具有明显的民族性、地方性、时令性, 表现出不同的文化特征。在民族节日中, 纪年性、祭祀性、纪念性、农事性、社交性等类型应有尽有,每个节日活动丰富多彩,都有自己的服饰文化、歌舞文化、饮食文化, 传承底蕴深厚。 用传统的结构数据很难完整地表述节日的相关信息,以及节日各要素之间的关系。借助XML数据表达的灵活性,通过提取少数民族节日的重要特征,定义成XML文档的相应元素,并按照特征之间的关系,定义元素之间的结构,得到XML文档如下所示: 节日活动 受地方性影响,同一个节日在不同地区的时间、持续天数、活动内容都存在差异。XML文档中的 1.3 XML聚类 k-means 算法是经典的划分聚类方法。k-means基本思想是:给定一个有n个文档的数据集。首先随机选择k 个文档作为聚类簇心,然后将剩余n-k个文档分别与k 个聚类簇心比较,将其加入到最为相似的聚类簇心所在的聚类,然后通过重新计算各聚类的平均值更新聚类簇心,重复这个过程直到满足收敛条件或者达到迭代次数。k-means的缺点是聚类的文档数n必须确定。聚类簇心的选择不同,会导致不同的聚类结果。 本文在k-means 算法的基础上进行了改进,给出了一种基于划分的增量式聚类算法,算法的基本思想是:初始化为0个聚类,设定最小相似度阈值λ,每次输入一个XML文档T进行处理。如果是第一次输入XML文档T,则生成第一个聚类,并设置文档T为当前聚类的簇心。以后每次输入一个XML文档T,通过改进基于子树匹配的XML文档相似性计算方法,计算该文档和当前已有聚类簇心的相似性。如果相似性大于最小相似度阈值λ,将该文档并入相似性最大的聚类,并重新计算当前聚类的簇心;如果相似度小于最小相似度阈值λ,则生成一个新的聚类。该算法可随时处理XML文档,不需要设定聚类的文档数。另外,不需要随机选择聚类簇心,可动态调整聚类个数和聚类簇心,生成高质量的聚类。 1.4 聚类性能评估 文中对聚类性能的评估采用的评价指标是F-measure值。通过在实验中使用不同的数据集生成的聚类,计算一个聚类类别和预定义类别的召回率和准确率的调和平均,得到最终整体聚类的F-measure值。 实验中,选择120个少数民族节日作为测试数据,采用上述划分算法得到5个聚类,召回率为84.5%,准确率为93.2%,证明了该聚类算法的可行性。 2 结语 少数民族节日具有丰富的文化内涵,利用XML技术对其进行挖掘具有现实意义。本文将少数民族节日用XML文档表示,便于少数民族节日信息的存储和传播。同时提出了基于子树匹配的相似性计算方法,和基于划分的增量式聚类算法,以此挖掘少数民族节日的深层次文化信息。本文方法有助于民族文化的研究,有利于实现民族文化数字化建设。 参考文献参考文献: [1] 龚德全.30年来贵州世居民族岁时节日文化研究综述[J].贵州民族学院学报:哲学社会科学版,2008 (3):116-120. [2] 王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2420. [3] 何峰,姜守旭,王宏志.基于子树匹配的相似 xml 连接方法的研究[J].智能计算机与应用,2011 ,1(4):1-3. [4] 于亚君,姜 瑛.一种XML的树匹配改进方法[J].计算机工程与应用,2012,48(20):177-183. [5] 赵斌,张永胜.基于 Bagging 的 XML 文档集成聚类研究[J].计算机工程与应用,2009,45 (14):138-140. (责任编辑:杜能钢) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。