数据挖掘技术的足球最优飞行轨迹估计

华正春
摘 要: 为改善中国足球的竞技能力,提高运动员训练效果,提出基于数据挖掘技术的足球最优飞行轨迹估计方法。首先采用决策树方法对历史足球飞行轨迹数据构造树形架构,并在决策树上进行数据特征分类,提取足球飞行速度的大小、方向等分类结果,然后利用卡尔曼滤波估计足球飞行状态,通过时序解析和碰撞测试挖掘出足球最优飞行轨迹。实验结果表明,该方法估计结果与足球实际飞行轨迹的轨迹相似度高,可以应用于实际中。
关键词: 数据挖掘技术; 最优飞行轨迹; 决策树; 卡尔曼滤波
中图分类号: TN911.1?34; G843 文献标识码: A 文章编号: 1004?373X(2017)19?0123?03
Football optimal flight path estimation based on data mining technology
HUA Zhengchun
(Guangxi Teachers Education University, Nanning 530023, China)
Abstract: In order to improve the competitive ability of Chinese football and training effect of athletes, a football optimal flight path estimation method based on data mining technology is proposed. The decision?making tree method is used to construct the history football flight path data for the tree?form architecture. The data characteristics are classified on decision?making tree to extract the classification results such as the magnitude and direction of football flight speed. The Kalman filtering is adopted to estimate the football flight state, by which the football optimal flight path is mined by means of temporal analysis and intersection test. The experimental results indicate that the estimation result of the proposed method has high path similarity with the practical football flight path, and can be applied to the practical application.
Keywords: data mining technology; optimal flight path; decision?making tree; Kalman filtering
0 引 言
足球是中国体育竞技业中综合实力比较薄弱的一个项目,在历届足球联赛中,中国足球在战术、防守、进攻上都远落后于强队,运动员往往不能对传球、接球、截球等操作做出正确判断,从而错失得分良机。
近年来,数据挖掘技术不断成熟,应用软件、开发工具为这一技术带来了新的知识获取方法,如决策树、遗传算法、MBR(Memory?Based Reasoning,记忆基础推理)和神经网络等[1]。随着数据研究领域的不断拓宽,体育竞技业也进行了一些数据研究工作,但有效的科研成果非常少。人为估计足球飞行轨迹不是在短时间内就能拥有的能力,如果能够借助数据挖掘技术分析历届足球联赛球员的个人行为,获取隐含在行为之内的因果联系,就可以缩短这种能力的练就时间,实施智能化球队训练与管理,提高球员个人素质。所以,提出基于数据挖掘技术的足球最优飞行轨迹估计方法。
1 数据挖掘技术
数据挖掘技术是指在庞大且杂乱的数据体系中,使用特殊手段发现深度埋藏在数据体系内部的关键知识[2]。数据挖掘技术的基本使命如图1所示,包括分类、聚类解析、关联、时序解析、估计和误差解析,这六项使命可并行使用,也可相互关联使用。
分类作为最根本的数据挖掘使命,其原理是按照事先规划好的特征类别将数据样本训练好,最后完成数据特征的分门别类,以构造特征模型用于数据验证。
聚类解析的鼻祖是分类,是从分类使命中衍生出来的根据数据相似度进行分类的一个分支,但聚类解析的分类类别不需要进行事先规划,而是直接使用现实数据相似度进行解释[3],细化程度低于分类使命,能够构造宏观特征模型,用来表征数据之间的特征关联程度。
关联使命主要对动态数据特征的关联规则进行定义,在零售业、电网故障识别中比较常用,可以衡量现实数据之间的隐含规则。支持度和可信度是关联使命的解析标准,能够增强数据与现实情况的契合程度。
时序解析与估计是数据挖掘技术中的特殊使命,都利用动态的历史数据特征对未来数据特征进行解释。误差解析是对历史数据和标准数据之间差别进行比较的数据挖掘使命,可以提高数据挖掘技术的可靠性。
2 数据挖掘技术的足球最优飞行轨迹估计
2.1 决策树
若想要进行有关足球最优飞行轨迹的估计工作,决策树将通过贪婪方法构造树形架构,在树干上分配分类规律,训练出树杈连接点,令树杈连接点进行子分裂,将足球历史飞行轨迹数据特征沿着树杈依次向下按照时序排列[4]。在上述估计过程中,决策树的分裂方法是非常重要的,在搜寻分类结果时,每一个树杈连接点都是一个交叉口,分裂结果与搜寻结果的关联性很强,分裂方法不同,有可能出现不同的搜寻结果,这在进行足球最优飞行轨迹估计时容易出现特征歧义,导致估计结果不合实际[5]。在贪婪方法中,ID3是一种概念学习方法,它使用信息熵进行数据特征样本训练,在树杈连接点分裂之前将最大信息增益设成分裂标准,以对每个树杈连接点的分裂问题做出最优解答[6],实现足球历史飞行轨迹数据特征的最优分类。不断更新最大信息增益,直至决策树架构构造完成。
所谓信息熵就是信息期望值,ID3用最大信息增益表示足球最优飞行轨迹估计期望,信息增益设为[P,][P]的表达式为:
[P=iK(i)lnK(i)Q(i)] (1)
式中:[K(i)]是第[i]个历史数据特征分布概率;[Q(i)]是第[i]个历史数据概率分布密度。
树杈连接点集合表示为[D。]用式(1)计算出每个树杈连接点的最大信息增益,表示为[pi,]那么树杈连接点的分裂规律可以表示为:
[Info(D)=-i=1mpilog2pi] (2)
式中[log2pi]表示最大信息增益对数。
图2是决策树在足球最优飞行轨迹估计中的应用流程。如果集合[D]中只有一种特征类别[T,]那么决策树只进行一次最大信息增益[P]的计算,并只用一个分裂规律同时进行一次分裂[7]。当决策树构造成功后,足球历史飞行轨迹数据的分类结果也就产生了,对分类结果进行解析可实现最优飞行轨迹的估计。
2.2 足球飞行轨迹数据特征的获取
足球受到人脚部力量和万有引力的驱使在空中发生旋转和移动,因为在每个方向均有速度产生,无法汇聚求解,所以集合[D]中必须存在的数据特征是足球飞行的速度大小[v(i)]和方向[d(i)],统称为飞行速率[8],用轉置矩阵[v(i),d(i)T]表示。为了方便观察足球飞行轨迹,令:
[v(i)=d(i+1)-d(i)] (3)
[d(i+1)=d(i)+Δtv(i)] (4)
式中[Δt]是一个观察周期。式(3),式(4)表示在一个观察周期内足球飞行速度是保持不变的,那么足球动力学模型表达式可表示为:
[v(i+1)-v(i)=00-g+v(i)-kv(i)-qwzkwyqwz-kv(i)-kwx-qwy-qwx-qv(i)] (5)
式中:[g]是重力加速度;[k,q]是[K(i)]及[Q(i)]中的参数;[wx,wy,wz]分别是速度在[x,y,z]轴上的分量。
2.3 足球飞行状态估计
对决策树的分类结果进行足球飞行状态估计需要使用卡尔曼滤波[9]的状态转移函数和观察函数,表示如下:
[X(i)=fX(i-1),u(i-1),σ(i-1)] (6)
[Y(i)=hX(i),v(i)] (7)
式中:[X(i)]是足球实时飞行状态;[Y(i)]是实时飞行状态的观察值;[f[]]表示状态转移;[h[]]表示转移状态下的观察估计值;[u]是状态阈值;[σ]是飞行速率矩阵偏差。
由于[f[]]和[h[]]不能进行协方差运算,致使数据挖掘技术不能进行误差解析和未来足球飞行轨迹状态估计,所以引进雅可比矩阵进行一阶偏导变形:
[F(i)=?f?XX0ji-1,u(i-1)] (8)
[H(i)=?h?XX0ji-1] (9)
式中,[X0ji-1]表示第[j]个周期的足球飞行状态估计函数,这个函数是不断更新的,使用前一个周期的估计值和现有周期的观察值之差作为更新信息[Pj-1i],有:
[Pj-1i=X(j-1)-Y(i)] (10)
可知第[j+1]个周期的足球飞行状态估计函数可表示为:
[X0j+1i=X0ji-1+Pj-1i] (11)
由式(11)可知,在进行足球飞行状态估计时,要保留所有观察值中隐含的轨迹信息,以确保能够在足量的飞行状态中选择出最优飞行估计信息,提高所提基于数据挖掘技术(决策树)的足球最优飞行轨迹估计方法的准确率。
2.4 足球最优飞行轨迹估计
如图3所示的足球最优飞行轨迹估计流程依次通过决策树分类、足球飞行状态观察与估计、时序解析和碰撞测试,最终得到最优轨迹估计值。时序解析是指根据时间序列将足球飞行状态估计结果中列出的经常发生事项提取出来引进时间窗,令时间窗在原有时间序列上流通,经过训练挖掘隐含在数据内部的关键知识点。
碰撞测试是在足球飞行状态估计结果中引进力的作用的一个综合过程,包含万有引力、摩擦力、风力、运动员脚部推力等。对每个关键知识点进行碰撞测试,当所有关键知识点均完成测试,视为到达碰撞边缘。将足球飞行状态估计结果[X0ji-1]中的关键知识点转化成足球飞行速度在[x,y,z]轴上的负分量,设为转置矩阵[(w-x,w-y,w-z)T,]那么碰撞测试之后的最优轨迹估计结果可表示为:
[v+rx=[v-rx,w-y]b1v+ry=[v-ry,w-x]b2v+rz=b3w-zd+rx=[v-ry,w-x]b4d+ry=[v-rx,w-y]b5d+rz=b6w-z] (12)
式中:[v+r,][v-r]是碰撞速度在坐标轴上的正、负分量;[d+r]是碰撞位移在坐标轴上的正分量,下角标分别对应[x,][y,z]轴;常数参数[b1~b6]可通过关联多组足球历史飞行轨迹数据特征,利用最小二乘法拟合而成。
3 实验结果与分析
轨迹结构是指能够全面解释事物内外部特征的轨迹数据[10]。轨迹结构相似度是解释两种轨迹结构相似程度的数据指标。足球飞行中实际速度大小和方向与其估计值的轨迹结构相似度表示如下:
[sim(vi,v0)=13vv+vmin+vmax] (13)
[sim(di,d0)=disinθ, 0°≤θ≤90°d0, 90°<θ≤180°] (14)
式中:[vv,][vmin,vmax]分别是估计值与实际值之间平均、最小和最大速度大小的差值;[di,d0]分别是方向估计值和实际值;夹角[θ]是估计值和实际值之间的偏量。
使用本文提出的基于数据挖掘技术的足球最优飞行轨迹估计方法在一段时长为3 h的历史足球比赛视频上进行最优飞行轨迹估计,实际飞行轨迹已经给出,计算出估计值与实际值的轨迹结构相似度,如图4,图5所示。从图中能够看出,实际值和估计值的轨迹结构相似度非常高,基本高于0.95,特别是速度大小的相似程度一直保持在0.97以上,说明所提方法可在实际应用中取得好的效果。
4 结 论
数据挖掘技术在金融业、刑侦业、工业、农业等领域均得到了一定应用。本文提出一种基于数据挖掘技术(决策树)的足球最優飞行轨迹估计方法,目标是提高中国足球竞技能力,令运动员能够合理估计足球飞行轨迹,及时对我方与对方球员的行为规律做出正确判断。实验结果表明本文方法是可靠的,具有非常高的轨迹结构相似度。
参考文献
[1] 窦昀翬.探索数据挖掘技术在甲醇价格预测模型中因素分析的应用[J].上海化工,2015,40(9):39?42.
[2] 尚岑,王东雨,宇文姝丽.数据挖掘技术在健康数据分析中的应用[J].医学信息学杂志,2016,37(5):54?58.
[3] 宋园,刘乾,王灿,等.RoboCup2D日志文件数据挖掘研究及应用[J].大庆师范学院学报,2015,35(6):31?34.
[4] 闵芳,杨功廷,张昱.基于决策树C4.5算法的足球赛事预测[J].科技和产业,2014,14(6):94?96.
[5] 张天瑞,于天彪,赵海峰,等.数据挖掘技术在全断面掘进机故障诊断中的应用[J].东北大学学报(自然科学版),2015,36(4):527?532.
[6] 杜春杰,刘鸿优.高水平职业足球运动员比赛技战术表现特征研究:以西班牙男子足球甲级联赛为例[J].体育学刊,2016,23(4):110?116.
[7] 傅鸿浩,张廷安.足球运动中的唯象理论实证研究:以国家(地区)经济实力与运动成绩关系为例[J].体育科学,2016,36(7):79?88.
[8] 夏磊,张乐君,国林,等.节点相似度标签传播在社会网络中的应用研究[J].计算机工程与应用,2014,50(14):103?109.
[9] 秦锋,田杰,程泽凯.基于偏最小二乘法的RoboCup传球研究[J].计算机工程,2014,40(9):275?279.
[10] 李明,姚远耀.数据挖掘技术在物流供应链合作伙伴选择中的应用[J].物流技术,2015,34(2):152?154.