《基于加权相似度的心系病证量化诊断模型研究》-工学论文，计算机论文-论文范文参考-科学狗论文网

标题

基于加权相似度的心系病证量化诊断模型研究

范文

赵壮王一帆杨涛

摘要：建立心系病证量化诊断模型。将心系疾病（以冠心病为例）常见证型相关的症状映射到多维症状空间，将辨证问题转化为相似度计算问题，建立量化诊断模型，并对700条样本进行测试，分别计算Cosine、Tanimoto、Euclidean、Manhattan四种相似度，分析模型诊断准确率。四种相似度计算模型对冠心病常见证型的诊断准确率均在90%以上，能够满足诊断需求；权值选择主症1.00，次症0.8-0.95，兼症0.6-0.9，模型的效果较好。加权相似度计算可以用于常见病证的诊断。在今后的研究中，探索复杂证型的量化诊断问题，为中医的数据化和智能化进行有益探索。

关键词：相似度计算；冠心病；中医辨证；量化诊断

中图分类号：TP399 文献标志码：A 文章编号：1006-8228（2018）11-64-03

Abstract： To establish a quantitative diagnosis model of heart disease syndrome. This method maps the heart disease symptoms （taking coronary heart disease as an example） associated with common syndromes to the multidimensional symptom space， and the problem of syndromes differentiation is transform into similarity calculation to establish the quantitative diagnosis models. 700 samples were tested in the models， in which Tanimoto coefficient， Euclidean distance， Manhattan distance and Cosine similarity were calculated respectively to analyze the diagnostic accuracy. The results show that the accuracy of above models is all over 90%， which could meet the need of clinical diagnosis. The best weight of the main symptoms， secondary symptoms and accompanied symptom were set as 1.00， 0.8-0.95 and 0.6-0.9 separately. Therefore the weighted similarity calculation can be used for the diagnosis of common diseases. In the future research， the quantitative diagnosis of complex syndromes will be explored and the beneficial explorations will be conducted for the digitization and intelligence of traditional Chinese medicine.

Key words： similarity calculation； coronary heart disease； syndrome differentiation of Chinese medicine； quantitative diagnosis

0 引言

辨證论治是中医认识疾病和治疗疾病的基本原则，是中医学对疾病的一种特殊的研究和处理方法。辨证论治包括辨证和论治两个环节，其中辨证是论治（立法、处方、用药）的前提和基础[1]。中医辨证的过程是在中医理论的指导下，通过望、闻、问、切采集四诊信息，分析疾病的病因、性质、部位，以及邪正之间的关系，总结归纳证名的思维认知过程。辨证结论指导论治方案，是影响临床疗效的关键因素之一，如何准确有效的辨证已成为中医临床和教学的关注焦点。近年来，随着信息技术的发展，特别是人工智能技术的兴起，越来越多的学者开始关注中医诊断数字化研究[2]，利用计算机强大的计算和存储能力，有望实现中医辨证过程的数字化和智能化。

相似度计算是数据挖掘和机器学习中常用的基础性计算，通过计算事物特征之间的距离或夹角等，衡量两个事物相似性[3]。相似度计算在生物信息学[4-5]、医学诊断[6]方面有着广泛应用。本文以冠心病常见证型诊断为切入点，将中医辨证转化为相似度计算问题，建立冠心病常见证型诊断的相似度计算模型，通过比较不同模型下的诊断效果，最终形成有效的辨证量化诊断方法。

1 中医辨证问题的相似度计算模型转化

假设在n维空间中建立以n个症状为坐标的多维症状空间，出现某症状时，对应坐标为1，否则为0。那么，一组症状可以对应空间中的一个点[6]。“证”是对疾病当前状态的高度概括，而概括的依据恰恰是患者表现出的症状和体征。因此，“证”也可以映射到多维症状空间的点。对于给定的一组症状，要判断其为何种证型，这一问题可以转化为n维症状空间中两个点的相似性问题，即相似度计算。

在相似度计算过程中，首先需要建立多维症状空间，然后进行症状对齐，最后选择合适的相似度计算方法进行计算，具体过程如下。

⑴ 多维症状空间构建。假设证型S对应的症状组A={x1，x2，…，xm-1，xm}，患者的症状组B={x2，x4，…， xn-1，xn}，进行两个症状组的“并”操作A∪B，得到共同的症状空间{x1，x2，…，xk，xk-1}。

⑵ 症状对齐。分别在症状空间中找到A、B的映射，含有某症状，则对应症状为1，否则为0。A转化为特征向量M=[m1，m2，，…，mk-1，mk]，B转化为特征向量N=[n1，n2，…，nk-1，nk]。

⑶ 症状加权。根据症状重要程度设定加权值，分别得到A、B加权向量W1=[s1，s2，…，sk-1，sk]，W2=[t1，t2，…，tk-1，tk]，对A和B特征矩阵中的各个症状进行加权运算，得到加权后的向量V1=M*W1T、V2=N*W2T。

相似度计算。计算V1和V2的相似度，以“欧氏距离”为例，计算

下面以案例来说明。

首先，假设气虚证的症状组A={胸闷，气短，动则气喘}，而待辨证的症状组B={五心烦热，盗汗，潮热，胸闷}，得到多维症状空间为：A∪B ={胸闷，气短，动则气喘，五心烦热，盗汗，潮热}。

其次，进行症状对齐，得到A、B的特征向量分别为：

M=[1，1，1，0，0，0]， N=[1，0，0，1，1，1]

然后，设定权值，假设A、B对应权值分别为{1，0.5，0.5，0，0，0}、{0.5，0，0，1，0.5，0.5}，则加权后的向量为V1={1，0.5，0.5，0，0，0}，V2={0.5，0，0，1，0.5，0.5}。

最后，计算相似度Dist（V1，V2）=2.5。

2 心系病证加权相似度计算模型比较

2.1 实验数据

⑴ 证型数据

胸痹是中医病名，指以胸膺部窒塞疼痛为主的病证，与现代医学“冠心病”症状类同。普通高等教育“十五”国家级规划教材《中医内科学》[8]中将胸痹分为心血瘀阻证、气滞心胸证、痰浊闭阻证、寒凝心脉证、气阴两虚证、心肾阴虚证、心肾阳虚证7个证型。采用这一分类方法，结合专家经验，整理冠心病（胸痹）的常见证型（见表1）。

⑵ 测试数据

围绕各个证型自动生成测试样本，具体如下：

① 将表1中各证型对应的症状进行统一，形成“症状条目池”；

② 选择某一证型Y，将其症状组与“症状条目池”进行“差”运算，得到新的症状集合S；

③ 设定随机种子n，从S中随机抽取0～n个症状，形成附加症状组F；

④ 将证型Y对应的原始症状X与附加症状F进行“或”运算，得到新的症状组N；

⑤ 将N随机分成3份，分别对应主症、次症、兼症，形成一条测试样本；

⑥ 重复②-⑤的过程，围绕每个证型生成100条测试样本，共700条。

2.2 实验过程

⑴ 设定不同的权值，分别计算Cosine、Tanimoto、Euclidean、Manhattan相似度[8]，并按照相似度降序排列，其中Cosine、Tanimoto值越大，相似度越大，而Euclidean、Manhattan值越小，相似度越大。

⑵ 选择相似度最高的证型作为模型诊断结果，比较其与原始诊断的差异，若一致则判断诊断正确，否则，诊断错误。

⑶ 分析比较各个模型的诊断正确率。

2.3 实验结果

表2是不同证型相似度模型的计算结果（权值：主症=1.0，次症=1.0，兼症=1.0）。

3 分析及讨论

从表2可以看出：Cosine、Tanimoto、Euclidean、Manhattan四种相似度计算方法的相似度最高的诊断结果与标准证型一致；Cosine、Tanimoto相似度为0-1的数值，避免了多病证计算时的归一化问题。

从表3可以看出：相似度计算方法在测试样本表现效果较好，准确率均在90%以上，能够满足辨证需求；权值选择主症1.00，次症0.8-0.95，兼症0.6-0.9，模型的效果较好；Cosine、Tanimoto相较Euclidean、Manhattan，对权值的敏感性更好；

证型相似度计算模型辨证过程中需要与各个证型计算相似度，然后按照相似度降序排列，选择相似度最高的證型作为诊断结果。针对冠心病常见证型这类少量病证数据的诊断效率较高，但当病证较多，需要计算与所有证型的相似度，运算效率较低。

建立合理规范的证型定义是相似度计算模型的前提和基础，然后在证型的定义中往往出现“或有症”，如何有效的进行上述症状的表达直接影响模型诊断效果。理论上，可以通过建立同一证型的不同症状组，或者通过权值来平衡“或有症”的影响。

4 结束语

中医辨证数字化和智能化研究是中医诊断研究的重点和难点。如何将中医辨证转化为数学问题，从数据模型角度模拟中医辨证过程，将是中医辨证智能化研究的关键。本文将常见证型映射到多维症状空间中的点，将辨证问题转化为多维症状空间中不同点之间的相似度计算问题，并以冠心病常见证型诊断为例进行有效性验证，模拟实验证实这一方法的准确性和有效性。临床症情千变万化，证型异同难辨，患者往往表现出证型间夹或复合的复杂证型，常见证型的相似度计算无法解决复杂证型的辨证问题。在接下来的研究中，进一步探索复杂证型的量化诊断问题，为中医的数据化和智能化进行有益探索。

参考文献（References）：

[1] 朱文锋.证素辨证学[M].人民卫生出版社，2008.

[2] 徐玮斐，刘国萍，王忆勤等.近5年中医证候诊断客观化研究述评[J].中医杂志，2016.57（5）：442-445

[3] 陈曦，成韵姿.一种优化组合相似度的协同过滤推荐算法[J].计算机工程与科学，2017.39（1）：180-187

[4] 张书欣.生物信息学中运用的计算智能技术[J].中国科技信息，2014.1（18）：39-40

[5] 施晓秋，孔繁胜.计算机科学在生物信息学中的应用[J].浙江工业大学学报，2001.29（2）：69-73

[6] 李锋刚，倪志伟，郜峦.基于案例推理和多策略相似性检索的中医处方自动生成[J].计算机应用研究，27（1）：544-547

[7] 杨涛，吴承玉.心系证素模糊识别数学模型初探[J].时珍国医国药，2013.24（8）：2047-2048

[8] 周仲英.中医内科学[M].中国中医药出版社，2003.

随便看

科学优质学术资源、百科知识分享平台，免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。