网站首页  词典首页

请输入您要查询的论文:

 

标题 基于主成分的稀疏贝叶斯信用分类研究
范文

    盛静文 于艳丽 江开忠

    

    

    

    摘 要:针对传统信用评价方法分类精度较低、数据集属性变量间存在相关性等问题,提出基于主成分分析的稀疏贝叶斯学习(PCA-SBL)算法。首先对数据集特征变量进行主成分分析,使降维后的变量无相关性;其次,对主成分分析后的数据进行稀疏贝叶斯分类;最后将PCA-SBL分类方法分类精度与传统分类方法精度进行比较。分析发现,在German Credit Data和Australian Credit Data上,与传统KNN、朴素贝叶斯、SVM、随机森林、决策树相比,改进的SBL算法分类精度平均提高了5.26%、4.65%、2.11%、2.125%、4.66%,与稀疏贝叶斯学习算法(SBL)相比,平均提高0.965%,从而证明PCA-SBL算法具有更高的分类效果。

    关键词:信用评价;主成分分析;稀疏贝叶斯学习;信用分类

    DOI:10. 11907/rjdk. 192544 开放科学(资源服务)标识码(OSID):

    中图分类号:TP301文献标识码:A 文章编号:1672-7800(2020)004-0113-04

    Abstract: Aiming at the low classification accuracy of traditional credit evaluation methods and the correlation between data set attribute variables, this paper proposes a sparse Bayesian learning algorithm based on principal component analysis(PCA-SBL). Firstly, the principal component analysis of the characteristic variables of the data set is carried out, so that the variables have no correlation after dimensionality reduction. Secondly, the sparse Bayesian classification is performed on the data after principal component analysis. Finally, by comparing the classification accuracy of the PCA-SBL classification method with the accuracy of the traditional classification method, it is found that the improved SBL increases the classification accuracy by 5.26%,4.65%, 2.11%,2.125% and 4.66% averagely when compared with the traditional K-Nearest Neighbour (KNN),Naive Bayes,support vector machine, random forest and decision tree respectively on real-world German and Australian credit datasets. It also improves 0.965% averagely when compared with sparse Bayesian learning (SBL) algorithm. This proves that the proposed PCA-SBL algorithm has a higher classification effect.

    Key Words: credit risk evaluation; principal component analysis; sparse Bayesian learning; credit classification

    0 引言

    當今社会信用建设不断发展,作为信用考核标准的个人信用评分越来越受到重视。2014年12月中国人民银行征信中心推出了个人信用报告“数字解读”,2015年年初阿里巴巴推出芝麻信用分后,其它不少拥有个人信用信息资源的政府部门和社会机构也相继推出了个人信用评分,并尝试在一些场景中推广应用。个人信用评分的应用已在我国社会和经济领域产生重要影响。与发达国家相比,我国个人征信体系建设起步较晚、基础薄弱,但近年来发展速度显著加快。信用评估随之成为研究热点,目前常用的信用评估方法有:随机森林[1]、神经网络[2]、K近邻[3]、决策树[4]、朴素贝叶斯[5]、支持向量机[6]等。但已有方法大多受理想化条件限制或只能输出结果,无法细化评估过程[7]。常应用于文本分类[8],主要有4种分类器,分别是Naive Bayes、TAN、BAN和GBN。其分类原理是在已知某对象先验概率的情况下, 通过贝叶斯公式计算其后验概率, 即该对象属于某一类的概率, 选择具备最大后验概率的类作为该对象所属的类,确保分类精度较高。其中贝叶斯分类器是基于贝叶斯定理与特征独立性假设的分类方法,在个人信用评估中的应用较为常见[9]。

    文献[10]将朴素贝叶斯分类器、树增强朴素贝叶斯分类器应用于信用评估领域,并在两个真实的数据集上进行实验,与神经网络模型进行对比,用贝叶斯方法进行信用评价具有显著的优势,且贝叶斯分类器克服了神经网络分类结果难以解释的缺陷;文献[11]在信用评估领域运用3种朴素贝叶斯分类器,并比较其分类精度,发现朴素贝叶斯在信用评估中具有分类优势。但是文章中对属性采取的是静态离散化方法,但为充分利用属性信息必须使用动态离散化方法;文献[12]提出由于贝叶斯网络分类器具有同时处理定性属性与定量属性的能力,从风险代价角度出发,验证了基于MOR的贝叶斯网络分类模型在减小信用评估风险方面显著有效;文献[13]提出了一种基于最大后验概率熵的最优朴素贝叶斯分类器,并将其用于个人信用预测,结果表明,该分类器预测准确率高于朴素贝叶斯分类器,且比支持向量机效率高;文献[14]指出传统信用评估方法分类精度低,可解释性差,所以将最近几年较流行的 “稀疏学习”应用到信用评估中,提出基于SBL的个人信用评估模型。为解决稀疏贝叶斯受到理想化条件限制的问题,在进行稀疏贝叶斯之前进行主成分分析,以保持变量间独立性。

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/6 6:02:22