网站首页  词典首页

请输入您要查询的论文:

 

标题 基于欧式距离的判别分析
范文

    唐宇政

    摘 要:分类判别问题在生活中是一个有着重要应用需求的问题。例如根据患者肺部阴影大小,是否低烧以及其它理化指标来判断是否为肺结核患者,或是根据邮件的内容或者发件地址来判断其是否属于垃圾邮件。在现实生活中,我们希望能够准确快速的解决这一类问题,往往需要利用历史数据来建立合理的分类器。因此重点介绍一种常见的基于距离的判别分类方法——欧氏距离判别法 。首先在第二部分详细介绍这种分类方法以及将其和另外一种常见的基于马氏距离的判别分类法进行比较。在第三部分,我们将进行实例分析,基于花瓣长度和花瓣宽度利用欧式距离判别法对鸢尾花进行分类。

    关键词:分类问题;欧式距离;马氏距离

    中图分类号:TB 文献标识码:Adoi:10.19311/j.cnki.1672-3198.2019.09.092

    1 背景

    分类判别是指根据事物的不同点加以区分辨别,确定事物所属的类别,使具有更多相似点的事物归入一类,使之在大量事物中可以根据一定规律快速鉴别各个事物的所属种类。例如国家电网在对居民进行供电时,就可以根据以往的用电量数据对居民的用电情况进行划分,对用电量大的居民相应地收取更多的费用,从而达到促进节约用电的目的。在解决此类问题的过程中需要准确判别个体样本所属的类别,即应该划分的组别。本文中将介绍的是如何通过数学建模来快速准确完成这个分组判别的过程。本文中,我们将使用鸢尾花数据集,对150个鸢尾花数据样本进行分类判别,确定样本属于三种鸢尾花中的哪一种,来实例说明欧式距离判别法在现实生活中的可行性。

    2 分类方法

    判别分析法,是在分类确定的条件下,根据某一研究对象的各种特征值判别其类型归属问题的一种多变量统计分析方法。常见的判别分析法主要包括基于距离的判别、Fisher判别、Bayes 判别。本文主要研究对象是通俗易懂、应用范围广泛的基于距离的判别分析法。

    2.1 基于距离的判别分析

    距离判别的基本思想是将距离越近的样本分为一类,距离越大的样本分为不同类。这里的距离可以理解为样本之间的相似度,样本间距离越小越相似,反之亦然。在实际操作中,我们可以计算每一个新样本点(类别未知)到历史样本点(类别已知)的距离,然后将新样本的类别预测为于其最相似的历史样本点的类别。亦或者将新样本的类别预测为与其最相似的k(k=1,2,…)个历史样本点中类别最多那一类。

    通常,在构建模型的过程中,我们仅有大量的历史数据。因此,我们可以随机将历史数据分为训练集和验证集。训练集中的数据相当于历史数据,验证集的数据相当于新的数据。引入训练集、验证集可以在生活中也有一定的应用。例如假如我们需要识别一辆小汽车。那么我们需要有大量的小汽车图片(训练数据),当我们有足够多的数据时,我们就可以对已有的小汽车图片进行分析,找出其共同点。然后我们建立一个模型,说明这些数据都是小汽车的特征数据,从而知道什么是小汽车,具备哪些特征。这时,我们就可以放入已有的其他图片(验证集数据),把这些新图片与原有的模型中的图片进行比对,然后告诉我们哪些是小汽车,哪些不是小汽车。

    2.2 欧式距离判别法

    本文中,我们以欧式距离作为样本间相似度的度量。欧氏距离是一个通常采用的距离定义,是指在空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维(平面内,用坐标轴来坐标化表示即为x轴、y轴)和三维(立体空间范围内,用坐标轴来坐标化表示即为x轴、y轴和z轴)的范围内欧氏距离就是特定的范围内两个点之间的实际距离。当将样本坐标化放入坐标轴中后,即为两个点之间的连线的长度。例如,样本点包含n个变量,那么第一个样本点A=(x1,x2,…,xn)到第二个样本点B=(y1,y2,…,yn)之间的距离可以表示为:

    d(x,y):=

    (x1-y1)2+(x2-y2)2+…+(xn-yn)2=

    ni=1(xi-yi)2

    除了欧氏距离, 另一种常用的距离是马氏距离。与欧氏距离不同的是,它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的),并且是尺度无关的,即独立于测量尺度。马氏距离的计算需要用到矩阵和协方差矩阵。尽管欧氏距离简单有用,但也有明显的缺点。欧氏距离在代数化过程中忽略了个体的差异,对所有样本的处理过于类似,这一点有时不能满足实际要求。例如,在教育研究中,经常遇到对人的分析和判别,个体的不同属性对于区分个体有着不同的重要性。因此,有时需要采用不同的距离函数。同时,在欧式距离计算中,我们往往忽略了变量间单位的差异。

    3 实例应用

    3.1 数据介绍

    本文中的数据来源于鸢尾花数据集。这个数据集是常用的分类实验数据集,由Fisher 1936收集整理。是一类多重变量分析的数据集。数据集包含150个数据点,3类鸢尾花:有第一类山鸢尾,第二类杂色鸢尾和第三类维吉尼亚鸢尾,每类50个数据点,每个数据点有4个属性:花萼长度,花萼宽度,花瓣长度,花瓣宽度。通过这4个属性预测鸢尾花卉样本属于哪一种鸢尾花。我们将建立一个有关变量的坐标系,将样本以点的形式置于坐标系中。其中横纵坐标的数值视优劣程度而定,即是否直观有效。每个样本点都按照某两个特征数据放入到坐标轴中。在每个坐标系中,会有已有的135个训练集样本点分布在坐标轴中,每一个新放入的验证集的样本点(x,y),计算它和训练集样本点的距离,选出距离最近的前15个点,则此验证集的新样本点认为和这十五个训练集样本点的鸢尾花种类一致。由于在Fisher鸢尾花数据集中三种鸢尾花各有50个样本数据,因此统一编号1-50,每一个号就代表三种鸢尾花的各一个样本。通过随机抽样抽取1-50中的5个数字,得到一共15个样本组成验证集,剩余135个样本为训练集。通过随机抽样得到的验证集如表1。

    3.2 统计分析

    我们首先对单一变量进行处理,即仅从一个数据项来看。我们可以得到以下四幅图表。图表中全都采用统一的图例注记。

    ·山鸢尾 蓝色菱形

    ·杂色鸢尾 橙色正方形

    ·维吉尼亚鸢 灰色三角形

    (1)萼片长度。

    由上述四幅图可以看出,有关萼片的变量对于三种鸢尾花的区分度并不明显,而与花瓣有关的变量则可以显著区分出山鸢尾,杂色鸢尾和维吉尼亚鸢尾虽然有少部分重叠,但仍具有较高的区分度。

    因此在接下去的分类过程中我们将不采用有关萼片的数据。另外我们提出一种将有关花瓣的两个数据放入一张图表中,即以花瓣长度为横坐标,花瓣宽度为纵坐标,将每个样本个体以点的形式在图表中表示出来。这就变成了一个有关花瓣长度和花瓣宽度的二元变量问题。通过作图可以看到这种方式的区分度高,效果良好。

    (5)花瓣双坐标图。

    3.3 基于距离的分类算法

    我们将采用欧式距离判别法。建立一个平面直角坐标系,在此处先以与花瓣有关的两个变量为例进行判别。在坐标系中横坐标为花瓣长度,纵坐标为花瓣宽度,每一个样本根据其长和宽可以在图中找到相对应的坐标点,并加以颜色区分表示。

    下面我们将开始对验证集內的数据进行验证。

    我们以序号为23 的山鸢尾花为例,其花瓣长为1.0cm,宽为0.2cm。那么在坐标轴中可以表示为点(1.0,0.2)。运用欧式距离公式进行计算。

    通过计算可得此测试样本与样本集中所有135个样本数据的距离,总距离为397.315,平均距离为2.921。

    我们得到了表2中的数据。

    参考文献

    [1]吴孟达.数学建模教程[M].北京:高等教育出版社,2011.

    [2]白其峥.数学建模案例分析[M].北京:海洋出版社,2000.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/5 15:02:30