网站首页  词典首页

请输入您要查询的论文:

 

标题 基于XGBoost算法的研究生入学预测
范文

    何叶子

    

    

    

    摘 要:面对硕士研究生招生日益激烈的现状,构建一个高效的预测模型来预测学生被目标院校录取的概率,为学生选择院校提供帮助。根据国外研究生的录取条件,确定7个申请国外研究生时相对重要的评价指标。基于国外研究生招生入学的样本数据,采用XGBoost来建立研究生录取的预测模型,将其预测结果与Logistic回归、随机森林的结果进行比较分析。XGBoost模型正确率达到了87.43%,比Logistic回归和随机森林分别提高了6.9%、1.7%。

    关键词:预测;XGBoost算法;研究生入学

    随着大数据、人工智能新一代信息技术的深化研发与应用,为解决当前硕士研究生招生日益激烈的情况[1],本文将机器学习的知识应用到研究生入学领域中,通过构建模型来预测学生被所目标院校录取的概率,为其择校提供帮助。

    鉴于国内没有公开统一的数据库来管理大学生申请研究生的评价指标和具体数据,为了科学地帮助学生结合个人情况,对获取目标大学研究生指标有公平认识,本文针对国外研究生入学的样本数据,构建了一个基于XGBoost算法的研究生录取预测模型。实验结果表明,该模型具有準确率高、运行时间短的优点。

    1 预测模型

    1.1 Logistic回归

    Logistic回归一种是线性回归,其核心思想是Sigmod函数,该函数能将任意实数值映射成[0,1]的概率值。在对特征和权重进行线性回归的基础上,将其结果代入到,得到概率值。

    1.2 随机森林

    随机森林是一种基于Bootstraping的集成算法,首先在训练样本数据集N中有放回地重复随机抽取n个样本,生成足以代表原始样本分布的新样本集合[2]。再从数据集的K个特征中随机选取k个特征,根据Gini系数选择出最佳分割特征,作为CART决策树的结点。进而重复上述步骤m次,得到m棵决策树所组成的随机森林。根据多颗决策树共同执行决策的预测结果,来代表最终预测的结果。

    1.3 XGBoost

    XGBoost是通过不断增加分类树,采用集成的思想,通过多个弱分类器的预测结果的组合,使整体预测效果提升。但随着不断加入决策树,模型叶子结点过多,易出现过拟合的风险[3]。因此,引入树的正则化惩罚项,对每棵树的预测结果赋予一定权重,来防止模型过拟合。最终目标函数为每个样本预测效果偏差值与每棵树正则惩罚项之和。

    2 实验过程

    2.1 数据来源与描述

    本文首先确定7个申请国外研究生时被认为重要的评价指标,分别为GRE成绩、托福成绩、大学评级、目的陈述、推荐信、成绩平均累积学分绩点、研究经历,上述选取的指标参考了加州大学洛杉矶分校的研究生招生指标(https://bioinformatics.ucla.edu/),具体各指标描述信息见表1。基于上述指标,采用来源于Mohan S Acharya所提供的400个样本数据。[4](https://www.kaggle.com/mohansacharya/graduate-admissions)。

    2.2 数据探索与处理

    通过计算相关系数并比较其值的大小,来观察指标之间的和各指标与最终录取机会之间的关联程度,并通过可视化工具作图进行查看。结合图1中两图,可以看到,CGPA、GRE成绩、托福成绩、大学评级与进入大学的机会相关性较高。其它参数如SOP、LOR、Research对入学机会的影响较小。

    参考近几年国外高校的研究生录取率,得出每年高校研究生招生的平均录取率为6%,对录取机会列的数据进行筛选,将其中数据值大于且等于0.7的学生视为录取,录取结果的值标记为1;反之标记为0。为了防止构建预测模型时出现过拟合的现象,将样本数据分为训练集和测试集,分别占总样本数据集的65%和35%。

    2.3 实验结果

    本次实验使用Python语言采用了Logistic回归、随机森林和XGBoost三种算法模型,对相同的样本数据进行实验,将预测结果与实际数据进行对比,分析三者的性能。各个模型的预测准确率数值如表2所示。从表可以得出XGBoost相较于Logictic回归和随机森林,准确率较高,运行时间较短。

    3 结论

    本文采用Mohan S Acharya提供的Admission_Predict数据集,基于XGBoost模型来预测样本数据中学生的录取机会概率值并根据实际设置录取概率阈值,将录取概率值进行二分类,得出预测录取结果。进而将预测结果与Logistic回归、随机森林模型的预测结果进行比较分析,得出XGBoost具有预测准确率高、运行时间短的优点。根据实验分析结果,可以为学生进行院校决策提供一定帮助。

    参考文献

    [1]郑丽萍,邓淼磊.美国计算机专业研究生教育特点与启示[J].软件导刊,2019,18(06):204-206+210.

    [2]何清,李宁,罗文娟,史忠植.大数据下的机器学习算法综述[J].模式识别与人工智能,2014,27(04) :327-336..

    [3]孙逸菲,袁德成,王建龙,白杨.基于XGBoost方法的葡萄酒品质预测[J].沈阳化工大学学报,2018,32(04) :372-377.

    [4]Mohan S A, Asfia A, Aneeta S A. A Comparison of Regression Models for Prediction of Graduate Admissions[Z].IEEE International Conference on Computational Intelligence in Data Science, 2019.

随便看

 

科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。

 

Copyright © 2004-2023 puapp.net All Rights Reserved
更新时间:2025/2/10 22:40:41