英语原文共 6 页,剩余内容已隐藏,支付完成后下载完整资料
数据挖掘技术在体育预测方面的综述
Maral Haghighat .Hamid Rastegari .Nasim Nourafza
4.分类技术
现有的分析和理解大型数据集的能力远低于收集和维护数据的能力。因此,新一代的技术和工具正在被开发,以帮助人类对大量数据进行智能分析,并产生有效信息。
体育提供了关于每个玩家、队伍、比赛和赛季的大量数据,因此非常适合测试数据挖掘技术和工具。由于专家和统计学家无法解释单一比赛数据的关系,因此采用数据挖掘技术来帮助专家或在决策中独立使用。因此,体育团队可以通过适当的数据提取和解释,将数据转化为应用知识,从而在比赛中获得优势。此外,尽管各种未知因素可能影响结果,但数据挖掘在结果预测中仍然是有价值的。然而,在这一领域还没有得到充分的利用。考虑到近年来有关人工神经网络、决策树、贝叶斯方法、逻辑回归、支持向量机等几种数据挖掘技术的应用研究,以及在预测运动结果方面的模糊方法的应用,我们将在以下部分中回顾这些技术。
4.1 人工神经网络
人工神经网络是通过机器学习和知识的表示应用来预测复杂系统输出的一种新的计算方法。当它们模拟一个生物神经网络时,它们由若干个相互连接的神经元(处理元素)组成。每一层的神经元与前一层和下一层的神经元有加权连接。一个安包含至少一个输入层,一个输出层,和一些隐藏层,如果必要的话。在学习阶段,安处理训练数据集,并为网络寻找适当的权重,以正确地分类所有训练数据(一个众所周知的训练算法是误差反向传播)。
Kahn使用了多层感知器神经网络(分别在输入、隐藏和输出层中分别有10、3和2个节点来预测足球比赛的结果。他使用了一个赛季平均统计数据的两个数据集和赛季最后三个星期的平均数据。他通过误差反向传播算法训练网络。类似地,McCabe和Travathan使用了多层神经网络(分别在输入、隐藏和输出层分别为19-20、10和一个节点)来预测足球、足球和橄榄球的结果。由于他们更关心的是预测的准确性而不是速度,他们用误差反向传播算法来训练网络,而不是用共轭梯度法。它们将输出规范化为零(输)和一(赢)之间的值。
Davoodi和Khanteymoori设计了一个多层前馈神经网络(分别有1、2和1个输入、隐藏和输出层)来预测每个参与者的完成时间,从而预测其排名。每一层的所有节点都与下一层的节点相连接。他们用误差反向传播、动量反向传播、拟牛顿、Levenberg-Marquardt和共轭梯度下降法来训练网络。他们试图最小化平均平方误差(MSE),并找到了在输入层中有8个(等于特征数)节点的最佳模型,第一个隐藏层中有5个节点,在第二个隐藏层中有7个,在输出层中有一个。Ivankovic等人试图用ANN来预测篮球比赛结果。他们首先应用一个有12个输入节点的前馈神经网络,一个输出节点和一个隐藏层来评估不同类型的投篮对比赛结果的影响。然后,他们通过将统计参数的影响添加到一个包含9个输入节点、一个输出节点和一个隐藏层的网络中,从而改进了研究结果。在整个研究过程中,对数据挖掘的跨行业标准流程进行了跟踪,并对两个网络进行了误差反向传播算法的训练。
4.2支持向量机
通常,支持向量机使用具有高维度的非线性映射的训练集。换句话说,该算法搜索一个最优的分离超平面来作为两个类之间的决策边界。支持向量机通过使用向量(训练数据集)和边距(由向量定义)来找到超平面。虽然支持向量机的训练与其他方法相比需要更多的时间,但由于它在构建非线性、复杂的决策边界方面具有较高的能力,因此该算法具有较高的准确性。它也不太容易过度拟合。
Cao使用了一个支持向量机,一个简单的逻辑分类器(算法的核心是逻辑回归,使用LogitBoost作为一个简单的回归函数),朴素贝叶斯,以及一个多层感知器神经网络来预测篮球比赛结果。由于存在两组,考虑了两个输出。选择具有较大值的输出作为预测。然后,他通过一个评分过程测试了他的模型的实用性(一个测试模型预测尚未发生的事件的过程)。
4.3贝叶斯方法
贝叶斯模型是机器学习中最著名的监督分类技术之一。它既简单又高效,而且在具有各种不相关特征或高噪音的数据上运行良好。贝叶斯分类器是一个概率预测模型,它假定所有特征都有条件地独立于目标变量,也就是说,每个类中都有一些不相关的特性。然后根据之前的数据预测新的数据。贝叶斯定理采用贝叶斯定理,公式如下:
(4.1)
贝叶斯网络是在复杂性和不确定性的情况下进行推理的图形化模型。它们是定向的非循环图,显示随机变量(如节点)和它们的条件依赖性。贝叶斯网络易于隐藏和开发,即使是不完整的数据也能工作。
Miljkovic等人用一个朴素的贝叶斯模型来预测NBA比赛的结果。他们将比赛结果分类为输和赢,并在RapidMiner环境中实现模型。他们每天都将前一天的比赛数据添加到系统中已有的数据中。然后系统提供了基于更新数据集的未来比赛的概率预测。
4.4决策树
决策树是强大的、常见的分类和预测工具。与只提供最终预测并将路径隐藏在网络中的人工神经网络相比,决策树会产生一组规则来澄清最终的预测。决策树对数据特性提出疑问,并相应地对数据进行分类。每个问题都是节点的子集,每个内部节点都指向一个子节点,以满足每个可能的问题的答案。因此,提出的问题将形成一个层次结构,最后形成一棵树。通过从根(顶部节点)到叶子(无子节点)的路径进行分类。
Zdravevski和Kulakov使用了怀卡托智能分析环境(包括决策树)中可用的分类技术来预测比赛的获胜者。他们设计了一个模块来收集数据,从现有的特性中创建新特性,选择特性,并在怀卡托智能分析环境中对数据进行分类。
4.5模糊系统
模糊逻辑是一种新兴的技术,它有助于发展需要先进复杂的数学分析的系统。在传统的二元集合中,变量可以取0或1,而模糊逻辑变量可能具有介于0和1之间的真值。模糊系统可以预先描述不确定的、不合理的现象。它们基于IF-THEN规则(连续成员函数)存储在知识库中。事实上,一个模糊的系统将人类的知识转化为一个数学公式。
特拉温斯基设计了一个模糊模型来预测ACB联盟的结果。他认为这个问题是一个二元分类,并使用了一个包括数据收集、数据预处理(缺失值校正、特征选择和数据缩放)的三相建模过程,并利用基于进化学习的知识提取(KEEL)来实现10个学习算法。
4.6逻辑回归
逻辑回归是一个著名的分类问题工具。像线性回归一样,逻辑回归依赖于特征的线性组合,这些特征由逻辑函数映射成0和1之间的值。因此,因变量应该具有一个连续的值,它是事件发生概率的函数。逻辑回归包括两个阶段:一是估算每个群体的特征概率,二是确定分界点,并对特征进行分类。通过最大似然估计来估计系数。逻辑回归由于其简单的计算和解释以及可靠的结果引起了广泛的关注。
Buursma选择了一组特征,并使用了一些分类算法,包括简单和逻辑回归、贝叶斯网络、朴素贝叶斯和决策树来预测足球比赛结果。他的预测有三种输出(即主队获胜、抽签、客队获胜)。计算每场比赛中这三种输出的概率,并选择最大概率的输出。
5.结果评估
由于所有设计模型的准确性都必须被评估,因此研究人员使用了一个学习和一个测试数据集。这部分介绍了上述研究的准确性,并在表2中总结了它们的优缺点。
2003年,Kahn在美国国家橄榄球联盟(NFL)的第14和15周工作。整个赛季的预测准确率都高于过去三周(整个赛季为75.0%,14周为62.5%,第15周为37.5%)。McCabe和Travathan测试了每个联赛的最后三个赛季。他们使用人工神经网络预测AFL,NRL, EPL, Super Rugby League的结果,分别获得65.1%,63.2%,54.6%,67.5%的准确性。Miljkovic等人使用k重交叉验证来对训练和测试数据集进行分类,并发现对三分之二的比赛的正确预测为67.0%。
Zdravevski和Kulakov使用了训练和测试数据集,其中包括930场比赛。他们在怀卡托智能环境分析中使用37种算法对数据进行分类,并将结果与参考分类器的结果进行比较。参考分类器应用了霍林格公式,计算了主队的A率和客队的B率。如果A - B 3 gt; 0,那么主队的胜利就结束了(3被添加为“主场优势”)。否则,客队理应获胜。经过所有的分析,参考分类器的精度比其他分类器低5%。Ivankovic等人将收集到的数据中的75%视为训练集,其余的作为测试集。根据人工神经网络在测试数据上的应用,他们获得了80.96%的准确率。
Trawinski对他设计的系统进行了10倍交叉验证。他做了两组测试。首先,根据最近的三场比赛预测结果。该模型有6个特征,他得出结论:Clas-Fuzzy-LogitBoost具有最好的精度(82.0%),而Clas- Fuzzy - CHIRW算法的标准差(0.01)是最好的。根据团队当前的状态和统计数据,预测结果。第二个模型有15个特性。试验数据的分析表明Clas- Fuzzy - CHIRW算法具有最高精度(71.5%),Clas-Fuzzy-Ishib-Weighted和Clas-Fuzzy-Ishib-Hybrid有最优标准偏差(0.063)。最后,他选择了Clas-Fuzzy-Chi-RW算法进行预测。
Davoodi和Khanteymoori使用了人工神经网络的五种学习算法来预测赛马的结果。他们发现共轭梯度下降是预测最后一匹马的最合适的算法。用动量进行反向传播和反向传播是预测第一匹马的最佳算法。反向传播和Levenberg-Marquardt分别需要最长和最短的训练时间。最后,反向传播算法的准确率最高(77.0%)。Buursma采用了分类方法(线性回归)、多分类器(逻辑回归)、决策树、贝叶斯网络和朴素贝叶斯对怀托卡智能分析环境中的数据进行分类,并分别将获得的准确度分别为55.05%、54.98%、57.00%、54.55%和54.43%。曹国伟在2006-10年间收集了NBA联盟的数据,并用k重交叉验证的方式对收集到的数据进行了分析。他使用简单的逻辑分类器、朴素贝叶斯、支持向量机和人工神经网络分别得到了67.82%、65.82%、67.22%和66.67%的准确性。然后,他将2010-11赛季的数据作为得分数据集,计算出的准确性分别为69.97%、66.25%、67.70%和68.01%。
6.结论和建议
考虑到体育在当今世界的普及程度,许多组织为了在体育比赛中获得更好的结果而投入了大量的资金。因此,预测比赛结果已成为不同体育组织的兴趣课题。数据挖掘是一种被广泛接受的预测和解释事件的方法,它是实现这一目标的合适工具。近年来,采用了人工神经网络、决策树、贝叶斯方法、逻辑回归、支持向量机和模糊方法等多种数据挖掘技术来预测比赛结果。我们在这方面评估了现有文献,并发现了两大挑战。首先,低预测精度突出表明需要进行进一步的研究以获得可靠的预测。二是缺乏综合的全面的统计数据,迫使研究人员不得不从体育网站收集数据。在使用的数据集上的差异使研究人员无法将他们的结果与先前的研究进行比较,从而导致不清晰的发展。
我们可以提出一些解决办法来消除这些挑战。例如,通过使用在其他领域取得了良好的效果但却没应用在体育预测领域的机器学习和数据挖掘技术来提高预测的准确性。混合算法的应用也可以提高预测精度。此外,包括像如球员表现这种特征将有助于更准确的预测。另一方面,在每个运动领域的专家小组的帮助下,可以收集到一个全面的数据集。为了给不同的研究提供一个比较的机会,我们建议研究人员收集有效联盟的数据(如NBA)。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22971],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。