英语原文共 11 页,剩余内容已隐藏,支付完成后下载完整资料
股票价格走势在金融领域是一个重要的问题。在预测的表现上即使是很小的一点提升都会带来极大的收益。本文的目的是参考单分类器模型(Neural Networks, Logistic Regression, Support Vector Machines and K-Nearest Neighbor)来检测集成方法模型(Random Forest, AdaBoost and Kernel Factory)。我们收集了来自5767个公开上市的欧洲公司的数据并且使用AUC作为一种性能测量标准。我们的预测是前一年。结果表明,Random Forest 是最优秀的算法,接下来是Support Vector Machines, Kernel Factory, AdaBoost, Neural Networks, K-Nearest Neighbors and Logistic Regression。这项研究有助于文献,据我们所知,它是第一次使这样一个广泛的基准。结果清楚地认为,在股票价格预测领域的新的研究方向应包括在套算法集成。我们广泛的查询文献显然表明情况不是这样的。
1.引言
预测股价是财务中的一个重要目标(Al-Hmouz, Pedrycz, amp; Balamash, 2015; Barak amp; Modarres,2015; Booth, Gerding, McGroarty, 2014),因为一个合理的准确预测有可能产生高的财务效益和对冲市场风险(Kumar amp; Thenmozhi, 2006)。文学界的一个讨论重点是股价行为是可预测的还是不可预测的。长期以来,投资者接受了有效市场假说(EMH)(Malkiel amp; Fama, 1970)。这假设指出,没有异常收益可以通过研究股票价格的过去行为演化获得(Tsinaslanidisamp; Kugiumtzis, 2014; Yeh amp; Hsu, 2014)。然而,在二十一世纪初,一些经济学家表示未来的股票价格至少部分是可预见的(Malkiel, 2003)。因此,许多预测算法已探索和表明股票价格行为确实可以预测(Huang, Yang, amp; Chuang, 2008; Ou amp; Wang, 2009)。然而,可预见的是,预测股价走势仍然很难主要是因为金融市场是一个复杂的、进化的,与政治事件、经济状况和交易者的期望相联系的非线性动态系统(Huang, Nakamori, amp; Wang, 2005)。
为了股票价格走势的预测许多技术已经被探索。在金融世界其中一个性能最好的算法似乎是支持向量机(SVM)(黄等,2005;基姆,;李,2009)。其他著名的技术是神经网络(基姆和春,1998),决策树(吴,林,amp; Lin,2006),Logistic回归(上流社会,1996),判别分析(欧和王,2009)和 K-最临近分类(经过与nambi,2012)。然而,大多数研究忽视基准中的集成方法。据我们所知Kumar and Thenmozhi (2006), Rodriguez and Rodriguez(2004), Lunga and Marwala (2006) and Patel, Shah, Thakkar, and Kotecha (2015)是唯一四个在股票价格方向预测领域使用集合方法的研究。这是一个重要的理论差距,因为集成方法被证明是在许多其他领域,如客户的最佳表现流失行为(ballings amp; Van den说,2012),社会化媒体分析(ballings amp; Van den说,2015)和无监督词义消歧(WSD)(布洛迪Navigli和lampata,2006)。
在我们的研究中,我们将包括几种集成方法如随机森林(RF)(布雷曼博士,2001),AdaBoost(AB)(弗氏amp; Shapire,1995)和核工厂(KF)(balings amp; Van Den说,2013)。不同于其他人进行离散分析预测准确的股票价格,我们专注于分类模型(Leung,达乌克amp; Chan,2000)。文献表明预测方向足以执行有利可图的交易策略(Cheung Chinn,amp; Pascual,2005;Pesaran和研究,1995)。因此,我们预测股票价格的方向,而不是绝对股价。相比较与集成方法和单分类器模型在股票价格方向预测中的应用性能,本研究的主要贡献是一个广泛的基准。我们假设,在其他领域给出他们的优势,集成方法将优于单分类器方法。
本文的其余部分结构如下。在2节我们将回顾文献上的已被使用到股价方向预测的算法。第3节详细介绍了我们对比其他算法检测集成方法的方法。第4节讨论结果。第5节总结此研究和第6节描述了局限性和未来的研究路径。
2.文献综述
预测算法的使用是与金融的基本规则——有效市场假说(EMH)(马尔基尔与Fama,1970)相矛盾的。这个假设说明,如果一个人可以从分析过去收益率得到回报,整个金融市场将注意到这一优势,因此份额将被修正。这意味着通过检查过去的价格和股票收益没有异常回报。虽然EMH被普遍接受,但最初是基于传统的线性统计算法(马尔基尔与Fama,1970)。许多研究人员已经拒绝能利用算法模拟金融系统的更复杂的动态过程(Lo,Mamaysky,amp; Wang,2000;马尔基尔,2003)的假设。由于处理复杂性的方法和非线性的金融市场在产生积极的结果,研究人员仍在努力发明更好的技术。
预测股票价格趋势有三种主要方法:(1)技术分析,(2)时间序列的预测(3)机器学习和数据挖掘(hellstr Holmstrouml;并购ouml;毫米,1998)。第一类是使用图表和图形作为主要工具,分析者利用这些图做买卖决定。第二类是通过分析过去股价的回报来预测未来的股价。常用的方法是自回归方法(AR),移动平均模型(MA),自回归移动平均模型(ARMA)和阈值自回归模型(TAR)。第三类,数据挖掘,是从大量的数据或数据库中提取有用的信息的“科学”(手、马尼拉和史密斯,2001)。数据挖掘在金融界的普及日益增长,因为预测股票价格方向的主要问题是巨量的数据。数据集太大以至于没有数据挖掘方法就不可能处理,这样他们就掩盖了潜在的意义,不能从中获得有用的信息(法耶德,夏皮罗和史密斯,1996;智慧1995)。
几种算法已被用于股票价格方向预测文献。简单的技术,如单决策树,判别分析,和Na ve Bayesiuml;已经被性能更好的算法,如随机森林,Logistic回归和神经网络所取代。通用求解器,如遗传算法(Kuo,陈,黄2001)也被使用,但一般表现较差,计算上更昂贵。大多数股票价格方向预测的文献都集中在logistic回归,神经网络,K-近邻和支持向量机。集成方法如随机森林(随机),AdaBoost和Kernel Factory在股票价格方向预测领域仍然尚未探索。
表1提供了文献中用到的股票价格方向预测算法的概述(我们排除单一决策树,Naiuml;ve Bayes判别分析和遗传算法,因为他们已被上述更新更好的方法取代)。LR代表逻辑回归、NN代表神经网络,KN代表K-nearest neighbors,SVM是支持向量机,RF代表随机森林,AB代表AdaBoost和KF代表Kernel Factory。从表1很清楚,我们的研究是首次在一个基准中包括所有七个算法。这是很重要的,如果我们想找到,在全球范围内,最好的算法。使用次优算法可能会阻碍科学进步,在数据中的重要模式可能会错过。
在我们的研究中,我们将对比单分类器模型检测集成方法。上面提到的集成方法都使用一组单独训练的分类器作为基本分类器。我们相信,集成的方法将优于单个分类模型,因为它们在其他几个领域已被证明是非常成功的,如人脸识别(Tan,陈,周,和张,2005),基因选择(迪亚兹乌里亚特amp;安德烈斯,2006),预测蛋白质结构类(ballings amp; Van den说,2015)和信用评分(Paleologo,Elisseeff,amp;安东尼尼,2010)。在股票价格方向预测的文献都支持向量机(SVM)和随机森林(RF)已经被证明是最好的(库马尔amp; thenmozhi,2006;帕特尔等,2015)。
然而,还没有达成的共识是哪个算法最好,库马尔和thenmozhi认为SVM优于RF(2006),帕特尔等人恰恰相反(2015)。AdaBoost也有良好的表现,尽管不及随机森林(罗德里格兹和罗德里格兹2004)。作为帮助明晰哪个算法最好的一份努力,这项研究将参照SVM,AB,RF和其他四个算法。
三.方法
3.1.数据和变量
在这项研究中,我们收集了5767个上市的欧洲公司的年度数据。数据涵盖了广泛的行业(见表2)。数据是来自bureau van Dijk Amadeus数据库。Amadeus是欧洲公司的财务信息的数据库。
为了让我们的结果可归纳化我们计算了现存文献中最重要的因素。库马尔和thenmozhi(2006)表示,收益率、现金流收益率、账面市值比、规模是股票收益率的主要预测因素。Kim and Chun(1998)另一方面使用股票价格指数和营业额及成交量和市盈率。吴等人(2006)利用货币供应量与通货膨胀率。
除了上述文献中的变量,我们还介绍了其他重要的财务指标,提高我们的模型的预测值。这些措施包括流动性指标(流动比率、应收账款回收期)、偿债能力指标(偿债能力比率、资产负债率)、盈利指标(净资产收益率、资本回报率、ROA)。此外,还包括资产负债表(总资产、负债、资本、长期债务)和损益表(销售、折旧、税收、利息等)的信息,还包括一般经济特征(公共债务、GDP、失业、贸易平衡)。附录A中的表提供了本研究中所有变量的完整列表以及描述和公式。
本研究的目的是预测一年前股价是否会按预定的数额上升。总的来说,2009年度我们收集了81个变量(包括2009年的市场价格)。2010年度,我们只从数据库中提取了2010年的市场价格。如果2010的股票价格相对于2009的价格上涨了25%,我们编码的股票价格方向上升,否则我们编码的方向向下。在附录B中,我们提供了两个阈值的灵敏度分析的结果:15%和35%。结果基本吻合。
使用15%,25%和35%的阈值结果分别为40.6%,32.4%和25.6%的情况下被归类为正确的,因为一些分析技术对类不平衡更敏感,我们用过采样类取得完美平衡。我们选择了过采样的正类,而不是负的类抽样因为前者可以确保任何有价值的信息将被丢弃。其他更复杂的抽样方法已被证明不如过采样(burez amp; Van den说2009)。在平衡的样本上检测算法有利于公平性。
3.2.分析技术
在本节中,我们将介绍在这项研究中使用的七种技术:逻辑回归(LR),神经网络(NN),K-近邻(AdaBoost),支持向量机(SVM),随机森林(RF),AB(AB)和Kernel Factory(KF)。前四个是单分类器,最后三个是集成方法.所有的分析都采用R(R的核心团队,2013)版本3.1.3。
3.2.1.单分类器
3.2.1.1.Logistic回归。为了避免过拟合我们使用一个正规化,也被称为惩罚的方法进行逻辑回归。这项技术牺牲了一点小偏差,以减少预测值的方差,从而提高了整体的预测性能(Tibshirani,1996)。套索技术代表至少绝对的收缩和选择算子(Tibshirani,1996)和将收缩系数对零的系数的绝对值之和加上一个界(吉,爱德华兹,amp; Hastie,2002)。这是通过增加目标函数中负二项对数似然的一个惩罚项完成的(弗里德曼等人,2010):
用n个实例的数目和P个数目的预测。方程清楚地表明,为了尽量减少目标函数系数需要收缩。参数k决定收缩量。较高的K值会导致较小的系数。我们通过优化AUC保持训练50%的值来交叉验证收缩参数。一旦我们确定了最佳的k值,我们重新估计logistic回归模型的完整的训练集,以确保与其他算法公平的比较。我们使用弗里德曼等人的glmnet R-包。(2010,2013)。我们设置一个参数为1来获得套索法,我们通过设置nlambda 100让函数计算K的顺序(默认)。3.2.1.2。神经网络。我们使用了一个前馈人工神经网络优化算法。这种方法比反向传播算法更高效,可靠和方便。我们使用一层隐藏的神经元。这通常足够应付大多数数据集的分类(德莱塞特尔amp;大野Machado,2002)。我们使用逻辑激活功能和重新缩放的数值预测[ 1,1 ]减去中端,定义为(最大值 最小值)/ 2,从每个列并且以每个列的范围/ 2来划分。二进制变量被编码为 {1,1}。数据的缩放是必要的,以避免局部最优。为什么缩放避免局部最优的根本原因可以追溯到初始化阶段。分类边界(即超平面)是由输入为零的点定义(Sarle,1997)。类似于线性回归的系数和截距,在神经网络中的权重确定超平面的方向,偏置确定超平面从原点的距离。如果偏置很小,那么最初的分类界限将完全通过原点。如果数据不是以原点为中心,许多的超平面将不会分割数据为两类(Sarle,1997)。那些通过数据的将只提供有限的方向范围。这将增加获得局部最优解的可能性。因此,将原点包括到输入中很重要,如[ 1,1 ]。
缩放也需要克服数值问题,并获得训练效率。缩放避免浮点表示的限制。当我们有一个非常大的输入时,权重将非常小并且细小的变化不能表示出来。此外,逻辑激活函数的大量输入饱和使得算法在训练中调整权重很缓慢慢慢。因此缩放常常能加速训练。为了避免饱和在随机初始化中权重是要求较小的。权重的大小取决于输入的规模。因此缩放也消除了初始权重的规模依赖性。
我们使用神经网络的R包(Ripley,2013;Venables和Ripley,2002)
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[138994],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。