标题 | k-近邻判别分析法在个人信用评估中的应用 |
范文 | 杨众 【摘 要】 信用在个人发展和企业成长中占据着决定性的地位,良好的信誉除可赢得竞争优势外,也能够创造更多的发展机会。本文首先对k-近邻判别分析法进行概述,主要介绍其发展背景、基本思想和适用性,然后确立评估指标体系,依托k-近邻判别分析法围绕个人信用,构建评估模型,通过小样本集数据探讨实际应用,并对注意点进行了一定的剖析。 【关键词】 k-近邻判别分析法 统计 信用评估 模型 评估体系 【中图分类号】F224 【文献标识码】A 个人信用评估指个人从事市场经济交往活动的过程,可获取和某种服务相关联的能力与自身可信度的一种综合评估。k-近邻判别分析法属于非参数模式分辨方法,最早出现在1968年,主要应用在概率密度函数评判与分类问题中,因此这种方法具有非参数特性,所以能够在特征变量空间实现不规则变量模型构建,其在个人信用评估活动也得到了相关应用。 一、k-近邻判别法概述 1. 发展背景 目前,依托统计方法形成的模型具体包含回归模型研究、多元判别探究模型、回归和神经网络模型,前三种模型虽然各有优势,并得到了广泛应用,然而存在诸多不足,但神经网络法不仅准确,而且还能够规避和防范因研究人员主观意识所引发的错误问题,也有一部分人认为此法并非完全好,上述这四种方法存在一定的随意性,且结论存在差异,有时会带给人手足无措感。k-近邻判别法属于非参数模式分辨方法,具有非参数特性,近些年,其在个人和企业信用评估活动中得到了高度应用。早在1996年,便有专家在信用评估领域面向该方法进行了专业评估,笔者将依照这一研究,联系实际情况,探讨其在个人信用评估问题上的应用。 2. 主要思想 k-近邻判别法的主要思想内容为:设定存在t个样本集合,具体是w1,w2,...,wt,各类存在标明类别的样本为Ni,其中i为1,2,...,t。 假设样本指标为m个,那么样本点指标便能够组成m维特征空间,每一个样本点在上述特征空间中均存在一个对应点。无论哪个被识别样本,只要将其放置到上述特征空间中,构造特定的距离公式,便能够明确样本的近邻,具体有k个,在此之上,设定N个样本,源于w1,w2,...,wt分别是N1,N2,...,Nt个。如果k1,k2,...,kt为k个近邻归属到w1,w2,...,wt類的实际样本数,便能够确定判别函数和分类规则。如果估计gj(x)=max ki,那么可知分类x归属wj。 此方法在直观层面对应的解释较为简单,其中未知样本,仅仅将其与N个类别明确样本进行对比便可,确定实际距离,清楚距离最短的样本同类。 3. 适用性 k-近邻判别属于非参数统计方法,主要应用在概率密度函数评测与分类问题中。个人信用评估实际上是面向贷款风险因素实施的定性分析和定量计算,能够检测借款人的实际违约概率大小,从该层面可将其归属成分类问题,主要评判和辨识不同的贷款人员。从原理的角度来说,k-近邻判别法适合应用在个人信用评估问题中。 此法的适用性还能够从和别的信用评估手段的综合对比中反映出来。现阶段,大面积应用的方法具体可划分成两类,其中一类为统计模型,主要利用界定于已选变量集合中的某观测值样本,形成判别函数,以此来展开分类工作;另外一类为人工智能模型,其中分类树便是基于概念学习系统而形成的分类方法,且自上至下,利用训练样本研究学习,确立分类型在知识层面的表示。 和上述两类方法进行对比发现,k-近邻判别法具有显著优势,主要体现在其非参数特点能够在特征变量空间完成不规则变量模型构建,另外,若数据是多维的,则其功能通常优越于别的非参数评估手段,例如,它能够防范样本偏差,增加参数估计的真实性,还能够规避分类树方法现有的当复杂性提升时分类树模型面临的组合爆炸这一问题。 二、k-近邻判别模型构建 1. 样本数据的初步筛选 k-近邻判别法规定应求解样本间的实际距离,为此,要求各样本维数一定是相同的。所以,初步筛选样本数据时,一定要率先过滤掉存在缺漏的样本。以某商业银行内部信用评估数据充当样本,通过k-近邻判别法展开评估。假定获取的样本总数是N1,则经由初步筛选后能够明确不存在缺漏的样本数目是N个,及时还款的是N1个,逾期还款的是N2个,N1+N2的总和是N。 2. 构造评估指标体系 参照全面性、系统性、合理性、可操作性与直观性的标准,我们整合及研究一些商业银行所选取的评价指标,最终构造出以下指标体系,具体见表1。利用二级指标状况下的计分条件充当样本特性判别标准。 3. 求解k个近邻,确定待识别样本的具体归属 依照上述评估体系,能够计算并判别所有的样本点。 对于某未知归属且待识别样本,需精准计算其和各个样本点之间的距离,通过特定公式计算能够获得n个距离。综合比对这一距离,确定和最小距离相互对应的样本点,设定其中一部分为按时还款者,另外一部分是未逾期还款者,并存在两部分不相等的关系,若前者大于后者,则待识别样本为按时还款者,反之则为后者。 三、应用示例与注意点 1. 应用示例1确定训练及测试样本 应用该模型求解距离时相对复杂,本文只借助小样本数据来阐述其实际应用。表2是23个样本点,其中1~20是训练样本,前12是未违约样本,剩余的是违约样本,21~23是测试样本。为高效、方便求解样本指标特性,本文主要选用评分的方法。 2.独立求取各测试样本至训练样本之间的距离 依照特定公式,求解出21、22、23和剩余样本点之间的距离,主要通过距离的平方进行比较。 3.确定k个近邻,落实实际归属 利用特定方法求解出21、22和23的实际归属,并发现测试样本对应的判别结果和实际相符。即便应用更多样本,最终也能得到相同的结果。由此可知,这一方法能够应用在大样本容量的信用评估工作中,仅仅通过计算机统计程序,便可实现大量的计算。 2. 注意点 (1)分类风险 在上述应用中,并未考量分类风险这一内容,因此,当分类错误代价显著时,则会出现巨大风险,此问题即信用评估过程的误判。 误判主要包含两种类型,分别是第一类错误和第二类错误。统计学领域通常将第一类错误叫做拒真,主要指代把正常借款人判断成违约,而第二类错误是纳伪,主要是把违约借款人判定为正常借款人。长期的研究发现,从商业银行风险管理层面而言,第一类错误花费的成本大大超出了第二类错误。为此,设计模型时也应考量各种错误成本,让预测模型在一样的预测精度下全面降低第一类错误。 (2)维数祸根 k-近邻判别法即便不要求数据呈现正态分布,然而,其和别的方法一样,如果数据维数偏高,则可能会出现維数祸根这一问题。在高维数据中,虽然样本量巨大,但散落于高维空间时仍然十分稀疏,大部分点周边无样本点,致使近邻法无法应用。 为减小数据维数,可思量如何改进样本指标,使其简化。现下因子分析法和主成分分析法在指标简化中的时效性已得到证明,具有实用性。 四、结束语 k-近邻判别分析法和别的信用风险评估手段相比具有众多优点,最显著的便是k-近邻判别分析法能够基于特征变量空间完成不规则变量模型构建,同时,若数据是高维的,则k-近邻判别分析法还能够防范样本偏差,提升参数估计的可信度。我们应持续并深入研究k-近邻判别分析法,加大其在各个领域中的应用,让这一分析法越来越成熟。 参考文献: [1] 孙敬水,崔立涛.k-近邻判别分析法在企业信用评估中的运用[C].2015年国际应用统计学术研讨会论文集,2015:1- 13. [2] 姜明辉,王雅林,赵欣等.k-近邻判别分析法在个人信用评估中的应用[J].数量经济技术经济研究,2017,21(2):143- 147. [3] 易军,李太福,张元涛等.基于特征子空间虚假邻点判别的铝电解槽况诊断模型[J].机械工程学报,2016,50(10):9- 14. [4] 李太福,易军,苏盈盈等.基于KPCA子空间虚假邻点判别的非线性建模的变量选择[J].机械工程学报,2016,48(10):192- 198. |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。