标题 | 基于分类与评价算法的教学资源智能化动态更新系统构建 |
范文 | 邵孟良 摘要:针对网络教学资源平台中资源的静态特性,以及无法实时获取Internet上动态资源的问题,提出基于分类与评价算法的云端资源动态更新的系统建设方案,并对系统整体架构及资源动态采集模块、文件自动化分类模块、评价与反馈模块进行分析设计,对核心的文件分类模块采用基于词频及权重值的集成分类算法,通过分类搜索树运算构建,最后实验验证系统及算法正确、高效。 关键词:教学资源库;文件分类;词频分类;搜索树 中图分类号:TP311? ? ? 文献标识码:A 文章编号:1009-3044(2019)18-0274-03 Abstract: Aiming at the static characteristics of resources in the network teaching resource platform and the problem of not being able to obtain real-time dynamic resources on the Internet, a system construction scheme based on classification and evaluation algorithm for dynamic updating of cloud resources is proposed, and the system architecture and resource dynamic collection modules and files are proposed. The automatic classification module, evaluation and feedback module are used for analysis and design. The core file classification module adopts the integrated classification algorithm based on word frequency and weight value, and is constructed by classification search tree operation. Finally, the experimental verification system and algorithm are correct and efficient. Key words: Teaching resource library; document classification; word frequency classification; search tree 隨着信息技术、网络技术的飞速发展,网络教育及资源成为传统教育的有益补充与扩展。各大高职院校非常重视网络教育资源与传统教学模式的结合应用,提高人才培养质量。同时,国家也给予大力的支持,如:教育部于2010年启动高等职业教育专业教学资源库建设项目,2010年遴选、立项11个项目,2011年遴选、立项17个项目,涉及13个学科大类、16个省市和32个高职院校,建设资金达3亿多元[1];2018 年底“新建一批国家级职业教育专业教学资源库和国家精品在线开放课程”、“立项建设省级高等职业教育专业教学资源库 (200个左右)和精品在线开放课程(1000门左右)”[2]。 教学资源库的建设与使用带动全国职业教育的人才培养模式改革,推动职业教育教学改革,促进学习方式转变,满足学习者个性化、多样化、自主式的学习需要,整体提升职业教育人才培养质量和社会服务能力[3]。 目前,建成的教学资源库一般具有以下功能:完善的库类别,资源的共建共享, WEB集成,资源检索,网上交流,自主学习等[4]。在库类别中,一般分为专业标准库、网络课程库、精品课建设库、专业信息库、专业特色专题库、专业试卷库、专业图片库、专业视频动画库、专业合作企业库、专业文献库等。用户可自己维护自定义资源库的类别。由于教学资源库的建设周期长,而上传到平台的资源多为静态数据,且一般是由教学实施方手工方式上传更新,在知识日新月异的信息时代,专业库的知识内容严重滞后,无法适应专业的飞速发展,特别是专业信息库、专业文献库。 针对教学资源库资源种类单一、不能清晰地标注资源之间的逻辑关系、更新不及时等问题[5],本文拟提出建设基于分类与评价算法的云端资源动态更新的系统建设方案,由系统自动化地抓取Internet上的相关资源,并进行智能化地归类,动态更新专业信息库、专业文献库,以适应专业的发展,及时跟踪专业领域前沿技术。如何对Internet上海量的、异构的、动态的、半结构化或非结构化的信息资源进行抓取与分类,本文将结合教学资源库的特定案例进行研究与尝试。 1系统分析与设计 1.1系统整体设计 系统整体架构图如图1所示: 本系统主要涉及资源动态采集、文件分类、资源评价与反馈三大模块。资源动态采集模块实时地抓取页面;文件分类模块根据专业性质及难易度等要求进行自动化文档归类;资源评价与反馈模块让用户对资源进行评议,并反馈给文件分类模块,通过机器学习不断提高文件分类的精准度。 1.2资源动态采集模块 资源动态采集模块根据专业库的不同,依据配置文件中设置的URL、关键字、采集策略等搜索条件,实时地抓取Internet上的资源,并生成输出数据文件供文件分类模块进一步处理归类。资源采集流程如图2: 1.3文件分类模块 文件分类模块根据采集输出的数据,结合关键字库,采用相应的文本分类算法进行分类,归集到相关类别中。 文本分类算法众多,针对本应用系统特点,主要是针对固定的课程,其教学计划与要求比较明确(如:课程关键字、每个章节关键字、每个知识点关键字等都比较明确),故采用基于词频分类器集成的文本分类方法。文件分类模块架构如图3所示: 1.4资源评价与反馈模块 文件分类模块完成文档的自动化分类与归集,但由于文档结构复杂,文件分类模块无法智能化理解文件内容,其分类算法对文件的分类与归集会存在一定的误差。为适时调整与反馈分类评价,资源评价与反馈模块完成以下操作:当用户浏览文件内容时,让用户对文件进行简要评价,计算生成调整参数值,传入调整因子,反馈到文件分类模块,调整分类结果。 2相关技术概述 2.1网页抓取技术 网页抓取主要根据关键字检索网页内容,寻找匹配的页面。其关键技术是字符串匹配算法。字符串匹配分为精确字符串匹配和非精确字符串匹配,其匹配的模式有单模式匹配和多模式匹配。单模式匹配算法主要有:BF算法、KMP算法、BM算法、RK算法、Horspool算法[6]、Sunday算法[7]等,及各种改进的算法;多模式匹配算法主要有:AC (Aho-Corasick algorithm)、ACBM(CW)[8]、WM[9]、ACQS、DAWG(ACRF)、MultiBDM[10]等,及各种改进的算法。 本系统根据课程及章节设置关键字,其关键字比较固定,为适应不同的要求,根据章、节、知识点设置1-3级关键字,抓取页面时,根据需要选择不同的级别,对技术综合类的网站选择粗粒度的关键字,对专业性的网站选择细粒度的关键字,缺省情况选择到2级关键字。由于关键字较多,本系统采用多模式匹配算法进行匹配,以提高网页抓取速度。 2.2文件分類技术 文本分类的任务是将文集(corpus)中的文本分到预先定义的类别中[11]。根据分类器的数量将文本分类分为两大类:单分类器文本分类和多分类器文本分类。单分类器文本分类是指采用单一算法完成文本分类任务,一个分类器能够独自完成分类任务,这种分类器分类效果较好,但是算法复杂度较高,对样本具有敏感性,如K近邻分类算法、S V M分类算法等。多分类器文本分类算法是由多个分类器共同完成分类任务,通过训练将多个简单的基分类器按一定方式组合构成集成分类器 , 由集成分类器合作完成分类任务 , 这种分类器具有较好的泛化能力和较高的分类准确率 , 如基于集成学习的文本分类算法等[12]。 本系统将采用基于词频及权重值的集成分类方法,由细粒度级别的关键字词频及权重值向上一级归集,并计算文档难易度。 3智能化的文档分类 对采集到的文档进行分类,智能化归档到相关章节并设置难易度,是系统的核心部分。本系统采用基于词频及权重值的集成分类方法,采用搜索树结构运算构建。 3.1分类树的构建 3.1.1 分等级关键字 由于教学资源库建设针对性较强,面向具体的课程,课程一般分章、节,及下面的知识点。根据章、节、知识点设置三级关键字,其结构示例如下(以“数据结构”课程为例): 3.1.2 分类树初始构建 各节点数据格式为:关键字:频度度量值,初始化频度度量值为0;各边的权值为0。 3.1.3 频度度量值和权值计算 频度度量值和权值计算将根据资源动态采集模块输出的统计结果进行,根据关键字频度、标题关键字等因子进行计算。 (1) 公式定义 (2) 文档归类的确定 从根节点开始,选择权值为最大的边进行深度搜索,直至叶节点为止。搜索经过的路径就是各级分类的归集点。 3.2资源评价与反馈 用户在浏览文档后,将弹出调查问卷,请用户对资源分类适合度进行评价,若不适合,将选择权值第二、第三大的边进行深度搜索,供用户进行选择。并将选择的结果转化为调整因子[α],重新计算[P(i,j)]。[α]计算公式如下: [α]=t*Count,其中t为基数,缺省值为0.01,可根据用户数与真实度进行调整;Count为给予评价与反馈的个数。对于用户评价与反馈的真实度需要一个评估过程,可根据实验数据最终确定基数t的取值。 4实验验证 以表1采集结果作为实验样本数据,进行权值计算。 (1)计算生成搜索树 (2)文档归类确定 从根节点开始,选择权值最大的边进行深度搜索,确定文档归类。如图5所示数据,搜索路径为:线性表→链式存储→线性链表,则一级类别为线性表,二级类别为链式存储,三级类别为线性链表,三级备选类别为单链表。 从资源原文件分析理解,系统功能正确,分类准确。 5结论与展望 本文对教学资源库建设中拓展资源的智能化动态更新进行了尝试,采用基于词频及权重值的集成分类方法,使用分类搜索树结构运算构建,确定分级文档归类。并对核心的文档分类部分给出具体的设计与实现,从分类树的构建,到权值计算,到最佳搜索路径的生成。本文的研究对Internet上海量的、异构的、动态的、半结构化或非结构化的信息资源进行抓取与分类,对教学资源库动态获取,并职能化归类有极大的实用价值。但系统也还存在继续完善的环节,如:系统对关键字需要事先精心选择,对多别名的关键字也需要涉及,使得系统的效果依赖于关键字的正确设置;系统对文档的难度设置,无法做到智能化语义的理解,目前还只能是依据关键字及特性值。这些都是未来要继续学习与研究的。 参考文献: [1] 中国高职高专网.数字化学习资源中心高等职业教育教学资源库专栏[EB/OL].[2012-12]. http://www.tech.net.cn/zyjs/index.aspx. [2] 中华人民共和国教育部. 教育部关于印发《高等职业教育创新发展行动计划(2015-2018年)》的通知[EB/OL].[2015-10].http://www.moe.gov.cn/srcsite/A07/moe_737/s3876_cxfz/201511/t20151102_216985.html [3] 刘锐. 高职专业教学资源库研究综述[J]. 职业技术教育,2013(14):42-46. [4] 张家贵,曹哲新.高职院校共享型专业教学资源库建设研究[J].现代教育技术,2010(7):51-54. [5] 杨浩,付艳芳,杨陟卓.教学资源库建设存在的问题及对策探析[J].职业教育研究,2017(02):55-60. [6] Horspool R N. Practical fast searching in strings[J]. Software: Practice and Experience, 1980, 10(6): 501-506. [7] Boyer R S, Moore J S. A fast string searching algorithm[J]. Communications of the ACM, 1977, 20(10): 762-772. [8] Commentz-Walter B. A string matching algorithm fast on the average[M]. Springer Berlin Heidelberg, 1979. [9] Wu S, Manber U. A fast algorithm for multi-pattern searching[J]. 1994. [10] F Sebastiani. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34 (1):1-47. [11]姜远,周志华. 基于词频分类器集成的文本分类方法[J]. 计算机研究与发展,2006(10):1681-1687. [12]梁晓娜,于红,范丽民,骆桂爽. 改进词频分类器集成的文本分类算法[J].智能系统学报,2010(2):177-180. 【通联编辑:梁书】 |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。