决策树在就业数据分析中的应用
彭少芬
【摘 要】 在就业中,有许多因素决定着你最终就业单位的性质。为了能有效的分析就业因素的具体影响,在这里采用决策树算法,先利用信息熵和各个属性的信息增益找到划分点,依次类推直至属性无法再划分,在进行分析。
【关键词】 决策树 ID3算法 信息熵 信息增益
1.前 言
自各大高校对于研究生进行扩招以来,毕业生数量急剧攀升。就业竞争越来越大,就业问题也日益突出,必须解决,否则不仅影响到学生的本身利益,也会影响到经济和社会的可持续发展,学校一般都建立了学生管理系统,保存有大量的学生就业历史数据,我们通过分析这些数据,从中找出影响就业的主要因素。从而为各大高校和学生就业培养提供有效建议。
2.决策树算法
决策树学习的目的是产生一棵泛化能力强,即处理未知样本能力强的决策树。决策树属性划分原则是希望随着划分过程的进行,决策树的分支结点所包含的样本尽可能属于同一类别,即结点的纯度越来越高。
构造树的步骤:
训练样本的信息值。
第一棵树,属性,各叶节点的信息值。
第一棵树,属性,导致的信息增益。
依次,计算每棵树导致的信息增益。
选择获得最大信息增益的属性进行划分。
以此类推,递归,继续划分
当所有叶节点都是纯的,划分过程终止
属性停止划分条件:
当前结点所包含的样本属于同一类,无需划分。
当前属性集为空,或所有样本在所有属性上取值相同,无法划分
当前结点包含的样本集合为空,不能划分。
3.决策树算法的实际运用
3.1相关数据及说明
我们找到最能影响就业的主要因素有:专业成绩,政治面貌,奖励情况,社会实践经验、科研能力。在这里将就业单位作为决策变量。
就业单位分为企业和事业单位。
专业成绩取平均,成绩低于60分为差,60-80分为一般,80分以上为优良。
奖励情况分为三个等级,多(获得多次科研或学习等相关奖学金),少(获得少数奖项),无(没有获得过任何奖项)。
科研能力分为两个等级,优秀(发表过多篇文章等),少(发表少量文章等)
社会实践经验分为三个等级,多(在外实习次数多等)、少(偶尔在校做小项目),无(无任何实习经验)。
随机抽取了某班10个毕业研究生就业信息情况并对数据做了处理得到下表:
3.2训练样本的信息值(基于类的划分)
训练样本(用来创建树的数据集)在包含4个事业单位和6个企业的根节点上,对应于信息熵为:
3.3属性信息增益值
然后,我们要计算出当前4个属性的每个属性的信息增益值,用“专业成绩”划分之后所获得的三个分支节点的信息熵为:
于是根据公式算出属性“专业成绩”的信息增益為:
类似的,我们可计算出其他三个属性的信息增益:
显然,属性“科研能力”的信息增益最大,于是它被选为划分属性,下图是基于“科研能力”对根节点进行划分的结果,各分支结点所包含的样例子集显示在结点中。
然后,决策树学习算法将对每个分支结点做进一步划分,以上图科研能力少的样例集合为例,里面有{甲,乙,戊,己,庚,葵}6个样例,可用属性集合为{专业成绩,奖励情况,社会实践经验}。基于科研能力少计算出各属性的信息增益。首先算出专业成绩的信息增益。
基于科研能力少的专业成绩信息熵:
所以可算出基于科研能力少的专业成绩信息增益为:
同理,我们可计算出其他属性基于科研能力少的信息增益。
3.4决策树的生成
“专业成绩”取得了最大的信息增益,可选专业成绩作为划分属性。类似的,对每个分直节点进行上述操作,最终得到的决策树如下图所示。
3.5结论
从上面的决策树我们可以看出,科研能力优秀的人基本都进了事业单位,因为事业单位比较注重科研能力,专业成绩对就业单位也有影响,专业成绩差和一般的更多进入企业,社会经验丰富的学生进企业的多。学生要是毕业后更倾向于进入事业单位,应侧重加强专业素养和科研能力的培养,如果要是想到企业发展,应多多侧重专业成绩,好好学习专业知识,侧重社会实践经验的培养,学校可以根据学生的倾向制定相应的培养方案,提高就业率。
4.结语
在目前就业形势严峻的环境下,本文提出了基于ID3算法来构造决策树的方法。实验表明,该算法所构造的决策树结构简单、更加准确使用,而且具有较高的可理解性。具有很好的实际利用价值。为我们作出最终决策和制定有效措施提供了非常有利的参考依据。
【参考文献】
[1] 安瑞钰,郝琪,基于ID3决策树算法的学科竞赛参赛学生选拔——以天津农学院数学建模竞赛为例[J].信息与电脑(理论版).2019,(11),24-25.
[2] 韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005(11):2655-2657.
[3] 王子京,刘毓,决策树ID3新属性选择方法[J].现代电子技术.2018,41(23),9-12.