标题 | 中医师个体化辨证论治失眠诊疗数据预处理方法研究 |
范文 | 李新龙+刘岩+王宁+侯爱娟+王世华+周雪忠+张润顺+刘保延+何丽云 摘要:目的 基于辨证论治失眠诊疗前瞻性研究,探索适合中医临床诊疗数据的预处理方法。方法 运用中医临床科研信息共享系统,采用人机结合方式,通过数据清洗、规则编订、医师审核、规则修订、程序化导入与批量化处理等步骤,对8名中医师前瞻性失眠诊疗数据库进行数据预处理。结果 制订中医师个体化辨证论治失眠症状类规则27 534条、诊断类规则1036条、治法类规则841条、处方名称规则540条、中药名称规则885条。结论 预处理后各类术语概念得到不同程度的规范,同时保留了医师个体化辨证论治的特点,可用于中医辨证论治临床诊疗数据个体化与标准化研究,为数据挖掘提供支持。 关键词:预处理;数据挖掘;中医临床科研信息共享系统;辨证论治;失眠 DOI:10.3969/j.issn.1005-5304.2017.12.023 中图分类号:R2-05;R256.23 文献标识码:A 文章编号:1005-5304(2017)12-0092-05 Study on Pre-processing Methods of Clinical Data from TCM Individual Treatment of Insomnia Based on Syndrome Differentiation LI Xin-long1, LIU Yan1, WANG Ning2, HOU Ai-juan1, WANG Shi-hua1, ZHOU Xue-zhong2, ZHANG Run-shun3, LIU Bao-yan1, HE Li-yun1 (1. Institute of Basic Research in Clinical Medicine, China Academy of Chinese Medical Sciences, Beijing 100700, China; 2. School of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China; 3. Guanganmen Hospital Affiliated to China Academy of Chinese Medical Sciences, Beijing 100053, China) Abstract: Objective To explore suitable pre-processing methods for the TCM clinical data based on prospective study on insomnia treated by syndrome differentiation. Methods Based on the TCM shared clinical and research information platform and by using man-machine combination method, data cleaning rules, physician review, rule revision, procedural import and batch processing were used to conduct pre-processing for data in prospective study on insomniac treated by syndrome differentiation of 8 TCM doctors. Results Totally 27 534 rules for symptoms data of individual treatment of insomnia were made and 1036 rules for diagnostic data, 842 rules for therapeutic ways, 540 rules for formula data, 3785 rules for data of Chinese materia medica. Conclusion Different kinds of terminology concepts were normalized at different levels, at the same time, characteristics of individualized treatment based on syndrome differentiation were reserved. Appropriate pre-processing methods can be used in the reaserch of individualization and standardization of TCM syndrome differentiation clinical data and can provide support for data mining. Key words: data pre-processing; data mining; shared clinical and research information platform; treatment based on syndrome differentiation; insomnia 真實世界中医师辨证论治临床诊疗数据具有个体化差异大、多层次、多水平、不完整等特点,这既是中医诊疗的一大特色,又是中医传承工作面临的重要瓶颈。本课题组历经10余年,为中医真实世界临 基金项目:国家自然科学基金重点项目(81230086);国家自然科学基金青年基金(81503679) 通讯作者:何丽云,E-mail:hely3699@163.com 床研究专门设计开发了中医临床科研信息共享系统(以下简称“共享系统”)[1],具有临床数据结构化采集、数据抽提转化、数据挖掘分析等功能。共享系统旨在为真实世界临床研究搭建共性技术平台,已在20余家国家中医临床基地及全国近百家中医医疗机构得到应用[2]。近年来,在名老中医辨证论治疗效评价及经验挖掘方面,基于共享系统的数据挖掘发挥着重要作用[3-5],并逐步形成了“人机结合,以人为主”的中医师临床诊疗数据挖掘方法和理念[1,5]。作为数据挖掘关键环节,恰当的数据预处理方法是数据挖掘结果准确的有力保障。本研究从多名中医师辨证论治失眠症的临床诊疗数据入手,对个体化辨证论治疗效评价研究中的数据预处理方法进行探索,为中医药数据挖掘服务流程提供支持。 1 资料与方法 1.1 数据来源 基于国家自然基金重点项目“阶梯递进的辨证论治疗效评价方法研究”[6],根据共享系统中预先制订的半结构化诊疗信息模板采集数据(见图1),并以“字段名+字段值”或“字段值+字段类型”形式存储在数据库不同数据表中。截至2016年5月,数据库共存储了8位医师964例(2455诊次)患者的诊疗数据。 医师筛选标准:①主任或副主任医师,中医药治疗失眠相关疾病20年以上,具有成熟稳定辨证论治失眠的经验;②失眠患者人群较为固定;③门诊配备电脑,且可实时录入连续合格病例;④门诊拥有专门的科研助手(或者研究生)协助课题开展;⑤愿意参加本研究,依从性较好。 1.2 数据预处理软件 采用自主研发软件Medical Integrator Studio2.3[7]进行预处理,该软件基于共享系统设计研发,与共享系统兼容性较好,具备常规预处理软件数据抽取、数据转换及数据装载功能。 1.3 数据预处理流程(见图2) 1.3.1 原始数据调取 不同医师提交的临床诊疗数据在原始数据库永久性独立存储,预处理前首先要从原始数据库调取数据至细节数据库。细节数据库是原始数据库的镜像,用于各种数据处理,当针对数据的操作发生错误时,具有通过原始数据库进行溯源、纠错和恢复等功能。 1.3.2 原始数据核查 从细节数据库中将各医师的无重复数据导出到Excel表,由于存在测试、漏填或错填等无效数据,因此首先对数据进行核查,将数据质疑表分别发送给各医师或其预先指定的助手,经其核实确认后反馈数据答疑结果,据此从细节数据集剔除无效数据。 1.3.3 预处理规则制订 由于各医师数据采用半结构化模板录入,部分字段存在术语描述不统一、合并录入、重复录入等现象,相应处理规则分为转化、拆分、删除3种方式进行。预处理规则参照《中医药学名词》[8]、《中医临床诊疗术语·疾病部分》(GB/T 16751.1-1997)[9]、《中医临床诊疗术语·证候部分》(GB/T 16751.2-1997)[10]、《中医临床诊疗术语·治法部分》(GB/T 16751.3-1997)[11]、《中医基础理论》[12]、《中医诊断学》[13]、《方剂学》[14]、《中医内科学》[15]、2015年版《中华人民共和国药典》[16]、《中医证候鉴别诊断学》[17]、《诊断学》[18]、《内科学》[19],国际疾病分类(international Classification of diseases,ICD)[20]等制订。 1.3.4 预处理规则反馈与修订 将数据预处理规则发送至各医师,根据其反馈意见,确认或再修订相应规则。此过程是预处理的关键环节,各医师对数据预处理规则的判读,是预处理后数据能真实反映医师个体临床实际诊疗特点的重要保障。 1.3.5 预处理规则导入与批量处理 将确认后的预处理规则导入细节数据库的规则表中,对数据进行分类批量预处理。 1.3.6 预处理后数据核查 核查预处理后的数据,重点关注数据完整性和处理规则的一致性。 2 结果 2.1 数据库结构划分及规则汇总 各医师临床诊疗数据分别存储在数据库中的症状、诊断、治法(中药或針灸)、方名(中药或针灸)、中药、西药/中成药、实验室检查、物理检查等数据表中,共建立规则30 836条,各类数据预处理前后术语数量分布见表1。 2.2 症状类数据 症状类数据主要包括主诉、现病史、辨证论治清单、既往史、个人史、体格检查、实验室检查、物理检查等。数据的预处理可分为多义项的拆分、同义词的合并、默认值、异常值的删除,见表2。 2.3 诊断类数据 诊断类数据包括西医诊断、中医疾病诊断、中医证候诊断3类,由于存在疾病和证候分类混淆、疾病诊断术语不统一、错别字等问题,诊断数据的预处理主要从术语及类别的统一、更正和拆分三方面进行,见表3。其中证候诊断的预处理是重点和难点,本研究将证候拆分为病位、病性等基本证素[21]。病位、病性单一的证候,拆分为基本证素,如“肝肾阴虚证”拆分为“肝阴虚证”和“肾阴虚证”;病位或病性复杂的证候如“脾肾不足证”“心脾两虚证”“肝郁脾虚证”则不进行拆分。 2.4 治法类数据 治法类数据的预处理主要包括对术语的拆分和统一,见表4。对相对独立的治法进行拆分,对有明显相关性的治法,如“补气生血”“养心安神”“镇心安神”“交通心肾”“疏肝解郁”“调和脾胃”“平肝潜阳”等则不予拆分。此外,对于拆分后容易产生歧义的治法不进行拆分,如“清热化痰”规范为“清化热痰”,“清热利湿”拆分为“清热”和“利湿”,而“养阴清热”则不拆分。 2.5 方剂类数据 方剂类数据的处理主要包括方剂名称的统一和拆分,见表5。本研究采用复杂网络方法[22],根据实际方剂药物组成对不同医师有效处方进行数据挖掘,因此,对无明确方名者均统一为“自拟方”,未对其方名进行补充。 2.6 中药类数据 基于研究团队前期中药数据预处理基础[23],中药类数据从以下方面进行处理。①药物名称:参照2015年版《中华人民共和国药典》[16](以下简称“《中国药典》”),统一别名、错别字、省略词等,如“丛蓉”规范为“肉苁蓉”,“勾藤”规范为“钩藤”,“萸肉”规范为“山萸肉”,“元胡”“玄胡”“延胡索”统一为“延胡索”。②炮制方法:根据临床实际,对炮制不同、药效明显不同者视作不同药物,如“生地黄”与“熟地黄”,“生甘草”与“炙甘草”。③2015年版《中国药典》中未收录的中药,需要检索《中药别名速查大辞典》,使用相对规范的中药名称,并在数据库表中补充该药物的性味、归经、功效、常用剂量等内容,对中药字典进行完善补充。④2种以上药物合并书写者拆分为单个中药,如“合欢花皮”拆分为“合欢花”和“合欢皮”,“赤白芍”拆分为“赤芍”和“白芍”,“煅龙牡”拆分为“锻龙骨”和“煅牡蛎”等。⑤删除产地信息:如“川黄连”规范为“黄连”,“淮山药”规范为“山药”。⑥仅剂型不同者,视为同一味药,如“三七末”“三七片”规范为“三七”,“西洋参粉”规范为“西洋参”等。 3 讨论 本课题组前期以中医专家和失眠患者为研究对象的随机对照盲法研究中,同一患者在相同时间段内依次接受3位名老中医的诊断,在保证中医专家辨证论治诊疗实际状态不被干扰的情况下,随机服用其中1位医师的方药。结果显示治疗都有效的前提下,中医证候诊断与治疗方药有所不同,甚至有较大差异[24]。在真实世界中通过较完善的试验设计,用数据验证了中医辨证论治过程中的个体化诊疗实质,因此单纯以强调“标准化”的临床疗效评价模式,如证候、干预措施标准化,难以反映中医师个体化辨证论治的诊疗特色和精髓。而医师有效辨证论治方案的形成,受到医师自身个体化辨证论治知识体系的成熟度和临床实际诊疗经验丰富度的影响。因此,本研究在全国范围内筛选了具有丰富临床经验的中医名家,一方面其有较固定的患者群,另一方面也基本形成了自身的辨证论治知识体系。 在权衡医师辨证论治个性化特征的保留与统计分析对数据规范性要求的基础上,本研究在数据采集过程中,采用了半结构化的诊疗信息采集模板;在数据预处理的过程中,同样贯彻了“人机结合,以人为主”的原则。经过预处理,各类术语概念得到不同程度的规范,同时又尽可能地保留了医师个体化辨证论治的特点。因此在数据预处理的过程中建议坚持以下原则:①充分保留不同医师辨证论治的个体化特征,充分尊重中医师特定术语描述习惯,症状描述、辨证、治法术语的预处理规则均为每位医师量身制订。②参考相关标准和规范进行复合型术语拆分、同义术语统一等预处理。③建立预处理规则的反馈与确认机制,预处理规则需反馈医师,经其确认或修订,以保证处理后数据能够如实反映其诊疗实际。④人工编订与机器批量处理相结合,以保证预处理的准确性和效率。 综上所述,“人机结合,以人为主”的策略适用于中医临床诊疗数据的预处理。恰当的预处理策略,是衔接中医辨证论治临床诊疗数据个体化与标准化桥梁的关键环节,是中医药数据挖掘技术能否正确实现的前期保证。 参考文献: [1] 刘保延,周雪忠,李平,等.个体诊疗临床科研信息一体化平台[J].中国数字医学,2007,2(6):31,36. [2] 张润顺,刘保延,周雪忠,等.基于中医医疗与临床科研信息共享系统的临床研究要点[J].中医杂志,2014,55(17):1457,1460. [3] 周雪忠,刘保延,姚乃礼,等.中医临床数据库及挖掘分析平台的研究与应用探讨[J].世界科学技术-中医药现代化,2007,9(4):74,80. [4] 张润顺,王映辉,周雪忠,等.名老中医经验要素研究及智能挖掘平台功能设计[J].世界科学技术-中医药现代化,2008,10(1):45-52,63. [5] 王映辉,张润顺,吴洁,等.名老中医经验传承研究模式探索[J].中国中医基础医学杂志,2008,14(6):417-418. [6] Individualized treatment with traditional Chinese medicine for the patients with insomnia disorder:a Cohort Study-Full Text View- ClinicalTrials.gov[EB/OL]. (2015-03-31)[2017-06-13]. https:// www.clinicaltrials.gov/ct2/show/NCT02402959?term=sleep&rcv_d=14&show_rss=Y. [7] 刘保延,周雪忠,姚乃礼,等.MEDIS:以数据仓库为核心的中医临床医学智能平台[C]//国际中医药工程学术会议会议论文集.上海:国际中医药工程学术会议,2010:182-187. [8] 中医药学名词审定委员会.中医药学名词[M].北京:科学出版社, 2005. [9] 中华人民共和国技术监督局.中医临床诊疗术·语疾病部分:GB/T 16751.1-1997[S].北京:中国标准出版社,1997. [10] 中華人民共和国技术监督局.中医临床诊疗术语·证候部分:GB/T 16751.2-1997[S].北京:中国标准出版社,1997. [11] 中华人民共和国技术监督局.中医临床诊疗术语·治法部分:GB/T 16751.3-1997[S].北京:中国标准出版社,1997. [12] 孙广仁,郑洪新.中医基础理论[M].北京:中国中医药出版社,2012. [13] 陈家旭.中医诊断学[M].北京:中国中医药出版社,2015. [14] 李冀.方剂学[M].北京:中国中医药出版社,2012. [15] 吴勉华,王新月.中医内科学[M].北京:中国中医药出版社,2012. [16] 国家药典委员会.中华人民共和国药典[M].北京:中国医药科技出版社,2015. [17] 姚乃礼,朱建贵,高荣林.中医证候鉴别诊断学[M].2版.北京:人民卫生出版社,2002. [18] 陈文彬,潘祥林,康熙雄,等.诊断学[M].7版.北京:人民卫生出版社, 2008. [19] 陆再英,钟南山,谢毅,等.内科学[M].7版.北京:人民卫生出版社,2008. [20] WHO. International classification of diseases[EB/OL]. 2010 [2017-09-29]. http://www.who.int/classifications/icd/en/. [21] 黄碧群,曲超,向岁,等.中医证素辨证研究概况[J].湖南中医药大学学报,2013,33(1):24,31. [22] 郭峰,王晓忠,马燕,等.基于复杂网络的曾斌芳治疗慢性乙型肝炎用药规律研究[J].中国中医药信息杂志,2017,24(2):94-97. [23] 江丽杰.多医师辨证论治失眠有效治疗方药的发现研究[D].北京:中国中医科学院,2014. (收稿日期:2017-02-10) (修回日期:2017-03-08;编辑:向宇雁) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。