标题 | 世界杯足球比赛多分类预测模型研究 |
范文 | 摘 要:分类问题一直是数据挖掘、模式识别等领域的重要研究内容,应用大数据技术处理与分析海量数据可实现预测分类。数据科学研究一般过于依赖LGBM和XGBoost,但在某些情况下,线性回归的效果比GBM树更好。采用机器学习中的logistics回归算法对足球比赛历史数据进行分析处理,从而挖掘数据之间的关联。通过对训练集的后视检验得到每种结果的概率,对足球比赛结果进行预测。对决策树和集成算法Adaboost建模,提高了预测准确率。该方法对预测世界杯足球比赛结果具有指导作用。 关键词:多分类预测;机器学习;logistic回归;决策树;集成学习 DOI:10. 11907/rjdk. 182494 开放科学(资源服务)标识码(OSID): 中图分类号:TP302文献标识码:A 文章编号:1672-7800(2019)007-0045-04 Multi-classification Forecasting Model Based on World Cup Competition LEI Guang-yu (School of Computer Science and Engineering, Wuhan University of Engineering, Wuhan 430205,China) Abstract:Big data applications will bring about a new era of innovation and change in society. Classification problem has been an important research content in data mining, pattern recognition and other fields. Since World cup is popular, it can implement predictive classification by using big data technology to process and analyze the massive amount of data. Data science is now depend on LGBM and XGBoost much, but in some cases, the effect of linear regression is sometimes better than GBM,the others may be better. This paper mainly uses logistic regression. The historical data is analyzed and processed to excavate the correlation between the data, and the probability of each result can be obtained by the post-view test of the training set, finally, the prediction of the football match result is realized.And decision trees and integrated algorithms Adaboost are compared and the accuracy of the prediction is improved,and the actual prediction of the game has a guiding role. Key Words:soccer game prediction; machine learning; logistic regression; decision tree; integrated learning 作者簡介:雷光裕(1998-),男,武汉工程大学计算机科学与工程学院学生,研究方向为机器学习与数据挖掘。 0 引言 将机器学习算法应用于数据挖掘不但对处理足球比赛海量数据有重要意义,还对足球彩票竞技具有指导价值。足球比赛结果预测涉及的因素非常多,无法将所有因素都融入机器学习模型中,因此目前国内外将机器学习用于足球比赛预测的应用还很少。 机器学习是大数据分析的一种重要方法,机器学习算法可从原始数据中通过特征提取获得特征数据,从特征数据中自动尝试获得数据的相关规律,再利用获取的规律对未知数据集进行预测[1]。 常用的预测算法主要有支持向量机(SVM)、逻辑回归、决策树、随机森林集成学习等[2]。运用上述分类方法进行模型构建,分析比较各模型的性能。支持向量机可有效调节算法复杂度与泛化能力之间的矛盾,因此在小样本学习领域有着优于传统模式识别方法的推广能力[3]。然而在处理较大规模数据集时,通常需要更长的训练时间。KNN方法是基于实例的学习方法,可生成任意形状的决策边界,无需建立模型,但其分类开销很大,需逐个计算相似度。此外,当k取值较小时,对噪音也很敏感[4]。针对上述不足,研究者作了相应改进,但尚未有一个能同时实现训练时间短、预测能力强、规则提取简易且适应性强的分类方法,比较而言逻辑回归性能较优。本模型采用的逻辑回归分类方法是一种logistic方程归一化后的线性回归[5],这种回归方法一般能合理降低两端方向的输入,这类输入一般对预测结果产生负面影响。同时模型易于解释,便于提取知识集[6]。本文采用比赛主客场、净胜球数解释比赛胜负,提高了预测准确率,涉及的难题有机器学习的多预测问题、过拟合问题、连续值问题、模型调参问题、类不平衡问题等[7]。 实验目的是从样本数据抽取相应特征,并通过合适的算法模型从这些信息中找出和足球比赛结果相关性大的特性,计算下一场比赛的胜负概率、预测比赛胜负。 1 数据获取及预处理 本文构建2018世界杯足球比赛预测模型,预测整个世界杯比赛的小组赛结果,数据挖掘流程为数据集成、特征建模和结果预测。用历史数据分析影响因素,应用逻辑回归模型和决策树模型进行比较及预测。 1.1 数据清洗 分析数据来源于Kaggle,包含1872-2018年的数据,包括世界杯比赛、世界杯预选赛、亚洲杯、欧洲杯、国家之间的友谊赛等各国足球队排名,大约有20 565场比赛数据。特征有比赛日期、主客场队伍、主客场得分、比赛地点及比赛是否友好。 1.2 数据处理 从原始数据集选取样本数据时,需要对数据集进行数据预处理,通过对变量缺失值和异常值等进行处理,去除不符合要求的数据。 表1 多标记数据集详细信息 通过表1数据可以看出,整个数据集数据三分类的正负样本较为平衡。由于足球比赛具有一定的即时性,过多或过早的数据不能很好地表示当前队伍的表现,所以需要对数据进行清洗处理。截取自1930年第一届世界杯以来入围2018俄罗斯世界杯小组赛的球队信息,共19 472行。 比赛结果有胜负平3种,这是一个三分类问题。现有多分类学习方法主要有算法适应法和问题转化法[4]。算法适应法拓展现有单标记机器学习算法,能直接处理多标记数据;问题转化法将多标记分类问题转化为若干个单标记分类问题[8]。处理多分类问题的方法多数采用多标记问题转化法思路,即将多分类问题转换成二分类问题[9],常用方法有one-vs-all和one-vs-one等。足球比赛胜负平3种结果是一个三元分类问题,将3个预测标签分别映射为1(胜)、-1(负)、0(平)。 1.3 特征工程 常用的特征工程分为子集搜索与评价[10]、过滤式选择[11]、包裹式选择[12]和嵌入式方法[13]4种。本次实验选用过滤式选择方法:先对数据集进行特征选择,然后训练学习器,此方法采用相关统计量度量特征的重要性。 通过特征选择保留主客场特征。由于世界杯比赛中的国家没有主客场之分,所以这里采用FIFA世界排名代替主客场特征。把FIFA排名靠前的队伍放到“home_teams”(主场队伍)一列,然后根据每个队伍的排名将他们加入到新的预测数据集中。 为使预测结果尽可能准确,应将目标差异和结果列添加到结果数据集中,在世界杯结果数据集中添加两个特征:胜利或平局、净胜球数。 2 逻辑回归模型应用 2.1 逻辑回归模型线性表示 逻辑回归是机器学习的经典算法,是典型的概率统计分类模型,属于有监督的学习方法,常应用于数据挖掘[14]。 线性回归即在给定的数据集[D={(x1,y1),(x2,y2),?,][(xm,ym),}],[ xi=(xi1;xi2;?;xid),yi∈R]中得到一个线性模型[f(xi)=ωTxi+b],使[f(xi)≈yi],并利用最小二乘法最小化均方误差对[ω]和b进行估计。即 [(ω*,b*)=arg min(y-Xω)T(y-Xω)] [?Eω?ω=2XT(Xω-y)] 令式为零可得到[ω]最优的闭式解。 通过激发函数将预测值与逻辑回归分类联系。预测中较常用的激发函数是Sigmoid函数:[y=11+e-z=11+e-(ωT+b)] 设某事件x发生的概率为P,不发生的概率为1-P,则[lnp1-p]为x作为正例的相对可能性。 [p=exp(α+β1x1+?+βmxm)1+exp(α+β1x1+?+βmxm)] 該模型即为逻辑回归模型,模型中[α]为常数,[βm]为逻辑回归系数,代表世界杯比赛各特征的相对贡献率。通过最大似然估计计算[ω]和[b]。根据凸优化理论[15],经典数值优化算法梯度下降法能保证每一点的拟合为最优。 2.2 逻辑算法建模及评估 logistic回归模型的样本自变量是连续型数据,通过设置哑变量(dummy variables),将home_team和away_team从分类变量转换成连续输入。 通过特征方程建立特征向量后,将样本数据集划分成70%的训练集与30%的测试集进行学习及交叉验证。 多分类任务的评估标准采用F1-score。F1-score是准确率和召回率的调和平均值,可对准确率和召回率给予不同权重,计算公式如下: [F1=2precision×recallprecision + recall] 为防止数据过拟合而影响其泛化效果,在损失函数最后一项中加入正则项。本实验特征向量不多,这里选取l2正则化。此数据没有表现类不平衡,正负样本随机抽样。 将数据导入逻辑回归模型中,预测结果在训练集中正确率为0.800,在测试集中正确率为0.793。不难看出,算法模型的泛化效果较好,比其它算法的正确率有明显提升,见表2。 表2 逻辑回归模型预测效果 2.3 逻辑回归小组赛预测 将上述模型应用到小组赛预测中,检验每场比赛的胜负平概率。通过选择胜率大的队伍作为比赛胜利一方对小组赛出线队伍进行预测。 通过学习,预测小组赛出线16支队伍为:乌拉圭、葡萄牙、法国、克罗地亚、巴西、 墨西哥、英格兰、哥伦比亚、西班牙、俄罗斯、阿根廷、秘鲁、德国、瑞士、波兰、比利时,其中13支队伍出线进入16强。 3 决策树与集成学习模型比较 为了对比集成算法和单个基分类器的预测效果,本文在相同的实验数据集上,采用基于逻辑回归模型进行实验,再分别使用随机森林(RF)、ExtraTree[16](ET)、梯度渐进决策树[17](GBDT)和决策树(DT) [18]4种算法作为基分类器进行实验,得出每个基分类器在单独使用时的预测F1值并得出相应的Fl值。 [9] MUKAEDA TAKAYUKI,SHIMA KEISUKE. A novel HMM-based pattern recognition method with unlearned pattern detection for emg signals[J]. The Proceedings of JSME annual Conference on Robotics and Mechatronics (Robomec), 2017(10):16-20. [10] SHINDO T. Artificial intelligence and human wisdom[J]. The Journal of the Institute of Electrical Installation Engineers of Japan,2017,37(11):22-29. [11] CHUENPRAPHANUSORN T,BOONCHART J,SNGU-ANYAT O,et al. The project evaluation for development the learning integrated model between the international program (IP) and the fundamental level curriculum in education hub project of the Ministry of Education, Thailand[J]. Mediterranean Journal of Social Sciences,2017,8(6):991-1002. [12] GASCóN A,SCHOPPMANN P,BALLE B,et al. Privacy-preserving dis-tributed linear regression on high-dimensional data[J]. Proceedings on Privacy Enhancing Technologies, 2017(4):31-38. [13] SHUANG BAI. Growing random forest on deep convolutional neural networks for scene categorization[J]. Expert Systems With Applications,2017(71):364-371. [14] TEISSEYRE P. Ccnet: joint multi-label classification and feature selection using classifier chains and elastic net regularization[J]. Neurocomputing,2017(5):187-192. [15] LOYOLA-GONZáLEZ O,MEDINA-PéREZ M A,FCO J,et al. PBC4CIP: a new contrast pattern-based classifier for class imbalance problems[J]. Knowledge-Based Systems,2017(11):5-11. [16] SINGH H R,BISWAS S K,PURKAYASTHA B. A neuro-fuzzy classification technique using dynamic clustering and GSS rule generation[J]. Journal of Computational and Applied Mathematics,2017(309):452-461. [17] CZAJKOWSKI M,KRETOWSKI M. The role of decision tree representation in regression problems-an evolutionary perspective[J]. Applied Soft Computing,2016(48):19-22. [18] LI Z , MA X F, XIN X L. Feature engineering of machine-learning chemisorption models for catalyst design[J]. Catalysis Today,2017(280):374-379. [19] GALAR M,FERNáNDEZ A,BARRENECHEA E,et al. NMC:nearest matrix classification-a new combination model for pruning one-vs-one ensembles by transforming the aggregation problem[J]. Information Fusion,2017(36):222-229. [20] DUMORTIER A,BECKJORD E,SHIFFMAN S,et al. Classifying smoking urges via machine learning[J]. Computer Methods and Programs in Biomedicine,2016(137):63-68. [21] HAN Y M, ZHU Q X, GENG Z Q,et al. Energy and carbon emissions analysis and prediction of complex petrochemical systems based on an improved extreme learning machine integrated interpretative structural model[J]. Applied Thermal Engineering,2017(115):202-211. (責任编辑:杜能钢) |
随便看 |
|
科学优质学术资源、百科知识分享平台,免费提供知识科普、生活经验分享、中外学术论文、各类范文、学术文献、教学资料、学术期刊、会议、报纸、杂志、工具书等各类资源检索、在线阅读和软件app下载服务。