决策树在就业数据分析中的应用

    彭少芬

    

    

    

    【摘 要】 在就业中,有许多因素决定着你最终就业单位的性质。为了能有效的分析就业因素的具体影响,在这里采用决策树算法,先利用信息熵和各个属性的信息增益找到划分点,依次类推直至属性无法再划分,在进行分析。

    【关键词】 决策树 ID3算法 信息熵 信息增益

    1.前 言

    自各大高校对于研究生进行扩招以来,毕业生数量急剧攀升。就业竞争越来越大,就业问题也日益突出,必须解决,否则不仅影响到学生的本身利益,也会影响到经济和社会的可持续发展,学校一般都建立了学生管理系统,保存有大量的学生就业历史数据,我们通过分析这些数据,从中找出影响就业的主要因素。从而为各大高校和学生就业培养提供有效建议。

    2.决策树算法

    决策树学习的目的是产生一棵泛化能力强,即处理未知样本能力强的决策树。决策树属性划分原则是希望随着划分过程的进行,决策树的分支结点所包含的样本尽可能属于同一类别,即结点的纯度越来越高。

    构造树的步骤:

    训练样本的信息值。

    第一棵树,属性,各叶节点的信息值。

    第一棵树,属性,导致的信息增益。

    依次,计算每棵树导致的信息增益。

    选择获得最大信息增益的属性进行划分。

    以此类推,递归,继续划分

    当所有叶节点都是纯的,划分过程终止

    属性停止划分条件:

    当前结点所包含的样本属于同一类,无需划分。

    当前属性集为空,或所有样本在所有属性上取值相同,无法划分

    当前结点包含的样本集合为空,不能划分。

    3.决策树算法的实际运用

    3.1相关数据及说明

    我们找到最能影响就业的主要因素有:专业成绩,政治面貌,奖励情况,社会实践经验、科研能力。在这里将就业单位作为决策变量。

    就业单位分为企业和事业单位。

    专业成绩取平均,成绩低于60分为差,60-80分为一般,80分以上为优良。

    奖励情况分为三个等级,多(获得多次科研或学习等相关奖学金),少(获得少数奖项),无(没有获得过任何奖项)。

    科研能力分为两个等级,优秀(发表过多篇文章等),少(发表少量文章等)

    社会实践经验分为三个等级,多(在外实习次数多等)、少(偶尔在校做小项目),无(无任何实习经验)。

    随机抽取了某班10个毕业研究生就业信息情况并对数据做了处理得到下表:

    3.2训练样本的信息值(基于类的划分)

    训练样本(用来创建树的数据集)在包含4个事业单位和6个企业的根节点上,对应于信息熵为:

    3.3属性信息增益值

    然后,我们要计算出当前4个属性的每个属性的信息增益值,用“专业成绩”划分之后所获得的三个分支节点的信息熵为:

    于是根据公式算出属性“专业成绩”的信息增益為:

    类似的,我们可计算出其他三个属性的信息增益:

    显然,属性“科研能力”的信息增益最大,于是它被选为划分属性,下图是基于“科研能力”对根节点进行划分的结果,各分支结点所包含的样例子集显示在结点中。

    然后,决策树学习算法将对每个分支结点做进一步划分,以上图科研能力少的样例集合为例,里面有{甲,乙,戊,己,庚,葵}6个样例,可用属性集合为{专业成绩,奖励情况,社会实践经验}。基于科研能力少计算出各属性的信息增益。首先算出专业成绩的信息增益。

    基于科研能力少的专业成绩信息熵:

    所以可算出基于科研能力少的专业成绩信息增益为:

    同理,我们可计算出其他属性基于科研能力少的信息增益。

    3.4决策树的生成

    “专业成绩”取得了最大的信息增益,可选专业成绩作为划分属性。类似的,对每个分直节点进行上述操作,最终得到的决策树如下图所示。

    3.5结论

    从上面的决策树我们可以看出,科研能力优秀的人基本都进了事业单位,因为事业单位比较注重科研能力,专业成绩对就业单位也有影响,专业成绩差和一般的更多进入企业,社会经验丰富的学生进企业的多。学生要是毕业后更倾向于进入事业单位,应侧重加强专业素养和科研能力的培养,如果要是想到企业发展,应多多侧重专业成绩,好好学习专业知识,侧重社会实践经验的培养,学校可以根据学生的倾向制定相应的培养方案,提高就业率。

    4.结语

    在目前就业形势严峻的环境下,本文提出了基于ID3算法来构造决策树的方法。实验表明,该算法所构造的决策树结构简单、更加准确使用,而且具有较高的可理解性。具有很好的实际利用价值。为我们作出最终决策和制定有效措施提供了非常有利的参考依据。

    【参考文献】

    [1] 安瑞钰,郝琪,基于ID3决策树算法的学科竞赛参赛学生选拔——以天津农学院数学建模竞赛为例[J].信息与电脑(理论版).2019,(11),24-25.

    [2] 韩松来,张辉,周华平.基于关联度函数的决策树分类算法[J].计算机应用,2005(11):2655-2657.

    [3] 王子京,刘毓,决策树ID3新属性选择方法[J].现代电子技术.2018,41(23),9-12.

相关文章!
  • 融资融券对日历效应的影响:来

    王璐摘 要:过去的研究表明,中国股市的运行效率受到政府监管与干预并存在非对称交易的现象。2010年3月31日,中国股票市场实行了融资融券

  • 汉中市汉台区铺镇中心卫生院公

    陕西省汉中市汉台区铺镇中心卫生院在院领导班子的科学决策和精心组织下,通过全院干部职工的通力协作,积极开展了提高医疗质量、改变医

  • 公司治理、内部控制对盈余管理

    金玉娜柏晓峰摘 要:按照形成原因——作用机理——解决机制的路径,对抑制盈余管理有效途径的实证研究表明:机会主义偏误和技术性错误是盈余