标题 | 基于双聚类的近10年罗汉果研究热点可视化分析 |
范文 | 范建华 梁敏 刘布鸣 摘要:目的 采用双聚类和可视化法分析近10年罗汉果研究,了解其研究热点及趋势。方法 计算机检索中国知识资源总库(CNKI)2007年1月-2016年12月罗汉果相关研究,检索时间为2017年2月20日。采用BICOMB、NetDraw、gCLUTO及SPSS19.0软件对纳入文献进行双聚类和可视化分析,提取关键词并绘制社会关系网络图、可视化矩阵、山峰图和多维尺度分析图,分析高频关键词间的關联。结果 最终纳入文献723篇,其中2012-2016年该领域年发文量约为70篇;关键词共现网络图包括76个关键词,其中“罗汉果皂苷”“罗汉果甜苷”“提取工艺”“组培苗”“栽培技术”“品种”“生长发育”等处于核心地位;可视化矩阵和山峰图表明,该领域研究主题主要可分为6类;研究热点动态演化表明,“罗汉果花”“饮料”“总黄酮”“基因表达”“基因克隆”“酶”“凋亡”“罗汉果籽油”等将成为后续研究热点。结论 本研究揭示了近10年罗汉果研究逐渐成熟,正向深层次拓展。 关键词:罗汉果;双聚类;可视化;BICOMB;gCLUTO;Ucinet;SPSS;数据挖掘 DOI:10.3969/j.issn.1005-5304.2017.11.022 中图分类号:R2-05;R282.71 文献标识码:A 文章编号:1005-5304(2017)11-0091-05 Visualization Study on Hot Spots of Research on Siraitiae Fructus in Recent Ten Years Based on Double Clustering Analysis FAN Jian-hua1, LIANG Min1, LIU Bu-ming1,2 (1. Guangxi Institute of Traditional Medical and Pharmaceutical Science, Nanning 530022, China; 2. Guangxi Key Laboratory of Traditional Chinese Medicine Quality Standards, Nanning 530022, China) Abstract: Objective To use double clustering analysis and visualization method to analyze the research on Siraitiae Fructus in recent ten years; To know the hot spots and trend of research. Methods Relevant research about Siraitiae Fructus in CNKI from January of 2007 to December of 2016 was retrieved by computers, and the retrieval time was February 20th, 2017. BICOMB, NetDraw, gCLUTO and SPSS19.0 software were used to conduct double clustering analysis and visualization analysis for included articles. Keywords were analyzed, and social network graph, visualization matrix, peak image and multidimensional scaling analysis map were drawn. Correlation among high-frequency key words were analyzed. Results Totally 723 articles were included, among which 70 articles were issued during 2012–2016; 76 key words were obtained by key word co-occurrence network map, among which mogroside, MOG, extraction process, tissue culture, cultivation technology, varieties, growth and development were in the core position; visualization and the peak image showed that the topics in this research field could be divided into 6 categories; research hotspot dynamic evolution showed that Siraitiae Fructus flower, beverage, total flavonoids, gene expression, gene cloning, enzyme, apoptosis, and Siraitiae Fructus seed oil would be the hot spots of further study. Conclusion This study reveals that the research on Siraitiae Fructus in the recent ten years are becoming mature, and expand to deep level. Key words: Siraitiae Fructus; double clustering analysis; visualization; BICOMB; gCLUTO; Ucinet; SPSS; data mining 罗汉果为葫芦科植物罗汉果Siraitia grosvenorii 基金项目:广西科学研究与技术开发重大专项(桂科重1355001-4、14124002-11) 通讯作者:刘布鸣,E-mail:liubuming@aliyun.com (Swingle)C. Jeffrey ex A.M. Lu et Z.Y.Zhang的干燥果实,具有清热润肺、利咽开音、滑肠通便等功效[1],为广西道地药材,主要分布于永福、临桂、兴安、全州、资源、龙胜、融安、金秀等地[2],1987年,原卫生部将罗汉果列为药食同源品种,并将“中药现代化研究与产业化开发”列入国家发展重点项目。目前,可视化软件CiteSpace已逐渐应用于中医研究领域[3],但采用图形双聚类可视化软件gCLUTO和Ucinet的NetDraw的研究鲜有报道。本研究从三维立体角度,利用可视化矩阵和山峰图等,展现罗汉果文献高频关键词聚类关系,揭示近10年该领域研究现状和热点,为后续研究与开发提供依据。 1 资料与方法 1.1 数据来源 计算机检索中国知识资源总库(CNKI)2007年1月-2016年12月罗汉果相关研究。采用精确检索,主题词为“罗汉果”,检索时间为2017年2月20日。纳入以罗汉果为研究对象的文献。排除新闻、指南、摘要、论文中没有关键词等类型的文献,重复发表的文献取最早发表的1篇。必要时查看全文。将检出文献以endnote格式导出,获取题目、摘要、关键词等信息。 1.2 数据分析 采用中国医科大学信息管理与信息系统(医学)系开发的数据挖掘工具书目共现分析系统(BICOMB)[4]对纳入文献的关键词、发表年份、作者等进行统计分析。绘制发表年份与发文量趋势图。 关键词是表达文献主题概念的自然语言词汇,在导入下载题录之前,先对题录中的关键词进行归并与规范化处理,对获得的关键词进行清洗合并,找出罗汉果领域高频关键词,利用高频关键词分别构建共现矩阵、词篇矩阵、相异矩阵,把共现矩阵导入Ucinet软件的NetDraw,形成以##h为扩展名的文件,最后绘制出关键词共现网络图谱。 社会网络分析是研究社会关系的重要研究方法,在学术热点分析方面有着独特的优势。将社会网络分析方法应用到共词分析,可以探讨一个学科或主题的研究结构[5]。图中每一个节点代表一个关键词,节点的连线数显示与其他关键词共现的次数,连线越粗,表明关键词之间的共现次数越多,关系越密切;节点越大、中心度越高,与其共现的关键词也越多,反之则处于边缘位置。 双聚类方法即对数据的行和列同时进行聚类,可同时使用对象及其属性来提取它们的联合信息。在数据挖掘或文献计量学中应用双聚类分析在很大程度上克服了传统聚类分析方法的缺陷[6]。本研究应用gCLUTO软件,能够实现行与列同时聚类,因此,双向聚类分析可以反映出高频关键词的对应关系,可用于总结该领域的学科基础结构和近期研究热点。将词篇矩阵导入gCLUTO软件,聚类方法采用Repeated Bisection,相似性函数选择Cosin,判别函数选择I2,聚类数量根据聚类结果的优劣进行调整,形成山峰图。图中山丘的体积越大,表示该类别所含关键词数量越多,山丘越高,则该类别类内相似性越大,山丘顶部颜色有红、黄、绿、浅蓝和深蓝5种,所代表的类内相似度标准差依次增高[7]。 采用Create Matrix Visualization创建可视化矩阵。矩阵原始数据值用颜色表示,白色代表接近零值,逐渐加深的红色代表较大的值,红色深浅表示关键词出现的频次高低。由于行与列同时聚类,可视化矩阵可以直观显示出各类别所包含的高频关键词。 将高频关键词共现矩阵导入统计软件SPSS19.0,根据Spearman系数生成相似矩阵,用1减去矩阵中的每个数值,得到相异矩阵,划出关键词多维尺度聚类群体。利用多元统计方法中的因子分析、聚类分析、多维尺度分析等,可以根据关键词中的距离,对罗汉果领域研究中的重要关键词或主题词进行相应分类,从而归纳出研究热点,了解其演变。 2 结果 2.1 发表年份 初检获得文献787篇,经筛选,最终纳入文献723篇。文献发表年份趋势图(见图1)表明,由2007年86篇逐渐下降至2009年56篇低位。随着国家“九五”“十五”“十一五”的“中药现代化研究与产业化开发”重点项目,以及2011年《广西壮族自治区壮瑶医药振兴计划(2011-2020年)》相关政策出台,罗汉果研究逐渐受到研究机构重视。在国家统一部署下,开展广西第四次中药壮瑶药普查,建设壮瑶药种质资源库,建设壮瑶药资源监测和信息网络,建设一批规范化、标准化、规模化的鸡血藤、罗汉果、广豆根、两面针、虎杖等大宗壮瑶药材生产基地。2011年发文量达90篇,而后稳定至70篇/年左右,表明罗汉果研究逐渐成熟,向深层次方向拓展。 2.2 高频关键词共现网络 本研究对部分近义词、同义词进行相应的合并处理,获得1592个有效关键词,使用BICOMB软件统计关键词出现>5次的有77个,去除最高频关键词“罗汉果”,其余76个高频关键词在一定程度上反映了该学科领域的研究主题和热点。导入76×76共词矩阵,借助Ucinet的NetDraw可视化软件绘制出罗汉果研究中76个关键词所形成的关键词共现网络图,见图2。“罗汉果皂苷”“罗汉果甜苷”“提取工艺”“组培苗”“栽培技术”“品种”“生长发育”等关键词位于共现网络的核心地位,节点较大,连线的数量最多,对其他关键词的影响最深,是研究机构持续关注的热点。同时,“罗汉果花”“饮料”“总黄酮”“凋亡”“酶”等,随着研究深入,可能成为后续研究的主要关注点。 2.3 高频关键词双聚类 可视化矩阵示意图见图3,其中左侧表示高频关键词分类,图右侧对应列出高频关键词,图上方表示对关键词来源的聚类。聚0类(11个):病毒病、植株根部、病虫害防治、根结线虫病、生产管理、组培苗、草质藤本植物、果实蝇、藤蔓、土壤、评价。聚1类(13个):糖尿病、自由基、抗氧化活性、罗汉果提取物、小鼠、力竭运动、总黄酮、罗汉果叶、凋亡、基因表达、酶、基因克隆、序列分析。聚2类(12个):蛋白酶、產量、品质、技术措施、快速繁殖、组织培养、生根、愈伤组织、茎尖、保存、生长发育、栽培技术。聚3类(13个):品种、永福县、种植面积、种植、农业、产业、发展、气候条件、化痰止咳、遗传背景、多倍体、果实、葫芦科。聚4类(13个):饮料、工艺、质量控制、紫外分光光的法、高效液相色谱法、罗汉果皂苷、含量测定、贮藏、抑菌、稳定性、罗汉果果汁、鲜罗汉果、正交试验。聚5类(14个):气相色谱-质谱法、无仔罗汉果、鉴定、罗汉果花、响应面法、提取工艺、多糖、分离、罗汉果甜苷、研究、应用、化学成分、药理作用、综述。 采用gCLUTO软件得到双聚类结果的可视化山峰图见图4。6座山峰较为独立,分布明显,表明聚类效果较好,图中数字为聚类号,即1代表类1;0号山峰高度最高,代表其内部相似度最高,类内标准差最低,聚类效果最好,主题集中程度也高。根据图3和图4的聚类结果,2007-2016年罗汉果领域文献研究主要集中在以下6个类别。第0类:根结线虫病、花叶病毒病、果实蝇等是罗汉果种植生产管理过程中常见病虫害,因此,在组培苗移栽前必须对植株根部和土壤进行施药、土壤曝晒,在果棚内悬挂诱捕器、黄色诱虫板[8]。第1类:罗汉果或罗汉果叶提取物在小鼠力竭运动、抗氧化、清除自由基的药理作用[9],在酶促进下对提取物的基因克隆、基因表达的序列分析,为研究罗汉果甜苷生物合成与基因调控奠定基础[10]。第2类:采取系列技术措施、栽培技术提高罗汉果的产量、品质及保存,以罗汉果组培苗为材料,探讨罗汉果微茎尖培养及其快速繁殖的方法,为大规模生产罗汉果优质种苗提供科学依据和支撑技术[11]。第3类:永福县的气候条件非常适宜罗汉果种植,但品种的选择影响到当地农业及产业发展,因此,为了选育出具有更强大杂交优势和多倍体优势的新型多倍体无籽罗汉果品种,必须大量地选择杂交亲本和在杂交后代中进行大量筛选,弄清杂交后代及其亲本的遗传背景[12]。第4类:罗汉果饮料或果汁的加工工艺研制,运用正交试验方法,使用紫外、高效液相等手段,对罗汉果皂苷进行含量测定,在贮藏过程对饮料稳定性、抑菌等方面的质量控制[13]。第5类:响应面法优化从罗汉果花或无籽罗汉果中分离罗汉果甜苷、多糖的提取工艺,采用气相色谱-质谱法进行化学成分鉴定,及罗汉果甜苷的药理作用研究[14]。 2.4 研究热点动态演化 将纳入文献分为2007-2011年和2012-2016年2个阶段,各阶段主题比较情况见表1,并分别绘制多维尺度分析图,见图5、图6。为还原该领域研究主题的动态发展过程,保证新近出现的、时间较短、频次较低的关键词进入分析范围,本研究将出现频次≥3的关键词纳入统计分析范围,尽量确保该研究领域关键词动态演变准确性。表1和图5、图6显示,2个阶段有部分研究主题相同,表明这些研究主题近10年一直是该领域研究热点。而部分主题如“罗汉果花”“饮料”“总黄酮”“基因表达”“基因克隆”“酶”“凋亡”“龙胜县”“罗汉果籽油”“肝纤维化”“肺热”“大肠经”等,随着研究的深入,可能成为新的研究热点。 3 讨论 关键词是表述论文的主题且具有实质意义的词汇,当2个关键词同时出现时,之间肯定存在相关性,且同时出现次数越多,这种关系就越密切,高频关键词共现网络分析图将其关联充分体现出来。本研究中“罗汉果皂苷”“罗汉果甜苷”“提取工艺”“组培苗”“栽培技术”“品种”“生长发育”“研究”等位于共现网络的核心地位,节点较大、连线数量最多,对其他关键词影响最深,是研究机构持续关注的热点。 双聚类分析方法将行和列结合起来,聚类的同时充分考虑列属性的特点,在行和列2个方向上进行聚类分析,来发现子矩阵或稳定的类,在数据挖掘中应用双聚类分析,在很大程度上克服了传统聚类分析方法的缺陷。为揭示罗汉果领域研究主题的动态发展过程,本研究将2007-2016年分为2007-2011年和2012-2016年2个阶段,将出现频次≥3的关键词纳入统计分析范围,分别绘制多维尺度分析图,结合2个阶段关键词演变对比表,动态展示了罗汉果领域关键词演变,随着时间推移和研究深度扩展,“罗汉果花”“饮料”“总黄酮”“基因表达”“基因克隆”“酶”“凋亡”“龙胜县”“罗汉果籽油”“肝纤维化”“肺热”“大肠经”等将是下一阶段关注重点。 本研究仅选取CNKI作为数据来源,对处理含义相近关键词的合并、类别数目和聚类效果的选择方面,依赖并取决于作者自身相关学科的专业知识和主观判断,研究结果可能导致偏倚,存在一定局限性。因此,后续研究应当采取多库检索方式,避免数据失真;对于关键词的清洗合并、类别判断、聚类结果的解读等,应咨询该领域专家;同时也可以采用其他软件,对结果进行对比分析,从而验证双聚类的效果。 本研究采用双聚类方法和可视化形式,从三维立体角度,利用关键词共现网络图、可视化矩阵和山峰图等,展现了罗汉果文献高频关键词与文献之间的聚类关系,其结果更直观、可视性更强。本研究总结并分析近10年罗汉果相关研究现状和发展趋势,揭示该领域的学科基础结构和研究热点,可将该研究方法推广到中医药科研领域的学科发展评价中。 参考文献: [1] 国家药典委员会.中华人民共和国药典:一部[M].北京:中国医药科技出版社,2015:212. [2] 梁启成,钟鸣.中国壮药学[M].南宁:广西民族出版社,2005:361. [3] 郭栋,童元元,黄生权,等.基于数据挖掘的枸杞研究热点分析[J].中国中医药信息杂志,2016,23(9):48-51. [4] 崔雷,刘伟,闫雷,等.文献数据库中书目信息共现挖掘系统的开发[J].现代图书情报技术,2008,24(8):70-75. [5] 刘启元,叶鹰.文献题录信息挖掘技术方法及其软件SATI的实现:以中外图书情报学为例[J].信息资源管理学报,2012,2(1):50-58. [6] 杨颖,崔雷.双聚类方法在同被引分析中应用的研究[EB/OL]. [2017-01-22].http://www.cnki.net/kcms/detail/31.1108.G2.20170122.1022.008.html. [7] MATT R, MARK N. gCLUTO documentation[EB/OL].[2017-04-10]. http:// glaros.dtc.umn.edu/gkhome/fetch/sw/gcluto/OLD/manual/index.html. [8] 蒋水元,李锋,李虹,等.罗汉果组培苗规范化种植生产操作规程(SOP)[J].广西植物,2007,27(6):867-872. [9] 李海云,王秀丽,潘英明,等.罗汉果不同溶剂提取物抗氧化及清除活性氧自由基作用[J].广西植物,2008,28(5):698-702. [10] 蒙姣荣,陈本勇,黎起秦,等.罗汉果法呢基焦磷酸合成酶基因的克隆及其序列分析[J].中草药,2011,42(12):2512-2517. [11] 吴群英,李伯林,李景云.罗汉果微茎尖组织培養与快速繁殖[J].种 子,2013,32(4):116-121. [12] 韦荣昌,李虹,蒋建刚,等.多倍体无籽罗汉果及其亲本遗传背景的ISSR分析[J].园艺学报,2012,39(2):387-394. [13] 谭冬明,石相莉,吕新印.高效液相色谱法测定罗汉果饮料中甜苷V的含量[J].中国食品添加剂,2015(6):178-179. [14] 陈阳,杨小生,杨娟.响应面法优化罗汉果多糖的提取工艺及其抗氧化活性研究[J].食品科技,2016,41(8):180-184. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。