《XML聚类在少数民族节日文化挖掘中的应用》-工学论文，软件工程论文-论文范文参考-科学狗论文网

网站首页词典首页

标题	XML聚类在少数民族节日文化挖掘中的应用
范文	任廷艳++罗刚 ?? 摘要：分析了少数民族节日文化挖掘的重要性，介绍了XML聚类的具体过程：XML模型表示、文档相似性计算、XML聚类、聚类性能评估。设计了少数民族节日的XML半结构化数据模型。提出了一种基于划分的XML聚类算法，实现了少数民族节日内涵的挖掘。关键词：民族节日；XML挖掘；XML聚类 DOIDOI：10.11907/rjdk.1511096 中图分类号：TP319 文献标识码：A 文章编号文章编号：1672-7800（2015）012-0140-02 0 引言节日民俗[1]是岁时民俗的一种独特表现形式，带有强烈的人文因素和浓厚的文化色彩，是一种综合性的文化现象。各民族节日内容丰富多彩，表现形式多种多样，是民族文化的重要组成部分，有着深厚的历史文化渊源。目前对于少数民族节日文化的研究多倾向于对节日表象的描述，缺少对节日的结构、功能、社会性、价值、意义等方面的深层次研究，缺少对节日文化内涵的深层次挖掘。本文介绍了XML文档的聚类过程，研究了少数民族节日XML模型表示，提出了文档相似性计算方法，改进了基于划分的XML聚类方法。将XML聚类应用于少数民族节日文化，挖掘民族文化融合的轨迹，有助于少数民族节日的跨文化研究，有助于岁时民俗事象的研究。 1 XML聚类聚类[2]是一个将数据集划分为若干组或类的过程，并使得同一类中数据对象的相似度较高，不同类中的对象具有较大的差异性。XML文档作为一种半结构化文档，有着灵活的数据表示形式，可以定义多种类型数据。XML文档具有可扩展性和自描述性，用户可以根据需求定义元素。因此，在处理XML聚类时，要从XML文档的特征出发进行聚类。常见的XML 聚类方法有：①划分聚类方法；②层次聚类方法；③密度聚类方法；④模型聚类方法。XML文档聚类主要有3类：①挖掘XML文档的文本内容；②挖掘XML文档的结构信息；③综合挖掘XML内容与结构信息。XML聚类过程：①XML模型表示：用户自定义元素和结构，设计XML文档的表示方法；②文档相似性计算：设计XML文档的相似度计算方法，相似度计算是信息检索和数据挖掘的基础；③XML聚类：根据XML模型，选择、设计合适的XML 聚类方法；④聚类性能评估：通常采用两种评价指标：纯度和F一measure值来评价聚类算法的总体性能，如图1所示。图1 XML聚类过程 1.1 XML模型表示受自然环境、社会环境和社会发展等多方面影响，少数民族节日具有明显的民族性、地方性、时令性，表现出不同的文化特征。在民族节日中，纪年性、祭祀性、纪念性、农事性、社交性等类型应有尽有，每个节日活动丰富多彩，都有自己的服饰文化、歌舞文化、饮食文化，传承底蕴深厚。用传统的结构数据很难完整地表述节日的相关信息，以及节日各要素之间的关系。借助XML数据表达的灵活性，通过提取少数民族节日的重要特征，定义成XML文档的相应元素，并按照特征之间的关系，定义元素之间的结构，得到XML文档如下所示：民族节日名称节日日期持续天数节日性质节日活动节日起源受地方性影响，同一个节日在不同地区的时间、持续天数、活动内容都存在差异。XML文档中的、、、等元素需要进一步细化，添加子元素，细化后的元素如下：节日日期因地域不同有所区别节日日期因地域不同有所区别服饰饮食歌舞活动节日日期因地域不同有所区别 1.2 文档相似性计算 XML相似性度量方法有：树编辑距离、基于边集的方法、子树匹配等。选择不同的XML文档相似性计算方法，直接影响到最终的聚类结果。以上定义的少数民族节日XML模型表示有以下特点：①XML文档中元素个数多；②不同层次包含相同元素，但元素表示的内容不同，直接计算XML文档之间的相似性较困难。通过改进基于子树匹配的XML文档相似性计算方法，从XML文档的路径、节点层次、权重综合计算相似性。计算两个XML文档的相似性方法的核心思想是：首先将XML文档转化成相应的XML文档树。通过选择关键节点（元素），将两个XML文档树划分为若干子树，筛选出需要计算的候选子树，将候选子树用候选子树序列表示，通过对比序列的相同元素，计算两个XML文档中所有候选子树的相似性。最后综合所有候选子树相似性的平均值，得到整个XML文档树的相似性，该相似性计算方法已经在不同数据集实验中证明了其有效性。 1.3 XML聚类 k-means 算法是经典的划分聚类方法。k-means基本思想是：给定一个有n个文档的数据集。首先随机选择k 个文档作为聚类簇心，然后将剩余n-k个文档分别与k 个聚类簇心比较，将其加入到最为相似的聚类簇心所在的聚类，然后通过重新计算各聚类的平均值更新聚类簇心，重复这个过程直到满足收敛条件或者达到迭代次数。k-means的缺点是聚类的文档数n必须确定。聚类簇心的选择不同，会导致不同的聚类结果。本文在k-means 算法的基础上进行了改进，给出了一种基于划分的增量式聚类算法，算法的基本思想是：初始化为0个聚类，设定最小相似度阈值λ，每次输入一个XML文档T进行处理。如果是第一次输入XML文档T，则生成第一个聚类，并设置文档T为当前聚类的簇心。以后每次输入一个XML文档T，通过改进基于子树匹配的XML文档相似性计算方法，计算该文档和当前已有聚类簇心的相似性。如果相似性大于最小相似度阈值λ，将该文档并入相似性最大的聚类，并重新计算当前聚类的簇心；如果相似度小于最小相似度阈值λ，则生成一个新的聚类。该算法可随时处理XML文档，不需要设定聚类的文档数。另外，不需要随机选择聚类簇心，可动态调整聚类个数和聚类簇心，生成高质量的聚类。 1.4 聚类性能评估文中对聚类性能的评估采用的评价指标是F-measure值。通过在实验中使用不同的数据集生成的聚类，计算一个聚类类别和预定义类别的召回率和准确率的调和平均，得到最终整体聚类的F-measure值。实验中，选择120个少数民族节日作为测试数据，采用上述划分算法得到5个聚类，召回率为84.5%，准确率为93.2%，证明了该聚类算法的可行性。 2 结语少数民族节日具有丰富的文化内涵，利用XML技术对其进行挖掘具有现实意义。本文将少数民族节日用XML文档表示，便于少数民族节日信息的存储和传播。同时提出了基于子树匹配的相似性计算方法，和基于划分的增量式聚类算法，以此挖掘少数民族节日的深层次文化信息。本文方法有助于民族文化的研究，有利于实现民族文化数字化建设。参考文献参考文献： [1] 龚德全.30年来贵州世居民族岁时节日文化研究综述[J].贵州民族学院学报：哲学社会科学版，2008 （3）：116-120. [2] 王玲，薄列峰，焦李成.密度敏感的半监督谱聚类[J].软件学报，2007，18（10）：2412-2420. [3] 何峰，姜守旭，王宏志.基于子树匹配的相似 xml 连接方法的研究[J].智能计算机与应用，2011 ，1（4）：1-3. [4] 于亚君，姜瑛.一种XML的树匹配改进方法[J].计算机工程与应用，2012，48（20）：177-183. [5] 赵斌，张永胜.基于 Bagging 的 XML 文档集成聚类研究[J].计算机工程与应用，2009，45 （14）：138-140. （责任编辑：杜能钢）
随便看	浅谈事业单位人力资源管理中的绩效考核对合伙制律师事务所管理的思考智能电网调度控制系统“两级三化”的管理浅析企业的社会责任事业单位临时用工劳动保险的管理现状及其思考大数据视野下的市场分析方法研究实证研究我国能源经济环境系统的协调性物联网产业发展理论与发展对策探析关于中国农民合作组织创新运作模式探讨改革之路上的“国退民进” 生态创新视角下对加快绿色产业发展的思考鄱阳湖生态经济区主导产业选择及政府扶持政策研究地方政府支出及FDI与地方经济增长之间的关系金融发展、技术创新与经济增长质量关系研究河南省产业集聚区壮大主导产业集群的思路与对策太阳能光伏产业发展面临的挑战及解决关于老龄化引发房价波动与房地产信贷风险研究的综述诚信助推微商良性运营社会冲突理论视角下的高校信访工作研究高校文秘专业毕业生就业能力的提升策略研究基于辅导员职业化、专业化建设的职业认同思考校企合作促进学校就业创业教育的策略研究新形势下对民办高职院校学生学籍管理信息化的思考基于Pad的课堂教学模式研究经管类专业实践教学存在的问题与对策 pullers' pullery pulley pulleyless pulleys pull/get your finger out pull in pulling pulling off pulling out pulling over pullings pulling through pulling up pull in (to sth); pull into sth pull-myself-together pull no punches/not pull any punches pull off pull off/bring off/carry off pull off something pull-oneself-together pull-out pullout pull out pull out all the stops 契重契阔契阔多年，音问罕达奓奓开奓角儿奔奔丧奔亡奔儿奔儿了头奔儿头奔冷铺奔凑奔北奔发奔名竞利奔向奔向一定的目的地奔向光明奔向某地奔向目标的动作神速奔吴士奔告奔命

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。