本科毕业设计(论文)
外文翻译
时间序列预测使用混合ARIMA和神经网络模型
作者:G. Peter Zhang
国籍:美国
出处:乔治亚州立大学管理学院
中文译文:
摘要:自回归综合移动平均(ARIMA)是近三十年来流行的时间序列预测线性模型之一。近年来在人工神经网络预测方面的研究表明,人工神经网络可以替代传统的线性预测方法。ARIMA模型和人工神经网络在预测性能方面的优越性经常被拿来与混合结论进行比较。本文利用ARIMA和ANN模型在线性和非线性建模中的独特优势,提出了一种ARIMA和ANN模型相结合的混合建模方法。实际数据集的实验结果表明,组合模型可以有效地提高两种模型单独使用时的预测精度。
关键词:ARIMA、Box-Jenkins方法论、人工神经网络、时间序列预测、组合预测
1.引言
时间序列预测是一个重要的预测领域,通过收集和分析过去对同一变量的观测,建立一个描述潜在关系的模型。然后使用该模型来推断未来的时间序列。当基本数据生成过程的知识很少,或者没有将预测变量与其他解释变量联系起来的令人满意的解释模型时,这种建模方法特别有用。在过去的几十年里,人们在时间序列预测模型的开发和改进方面做了大量的工作。
最重要和广泛使用的时间序列模型之一是自回归综合移动平均模型(ARIMA)。ARIMA模型的流行是由于它的统计特性以及模型构建过程中著名的Box-Jenkins方法[2]。另外,ARIMA模型[26]还可以实现多种指数平滑模型。虽然ARIMA模型是相当合理的,因为它们可以代表几种不同类型的时间序列。纯自回归(AR)、纯移动平均线(MA)和AR与MA的组合(ARMA)系列,它们的主要限制是模型的预先假定的线性形式。即时间序列值之间假设存在线性相关结构,因此ARIMA模型不能捕捉到非线性模式。线性模型对复杂现实问题的逼近并不总是令人满意的。
近年来,人工神经网络(ANNs)在时间序列预测中得到了广泛的研究和应用。Zhang等人对这一领域最近的研究进行了综述。神经网络的主要优点是其可扩展的非线性建模能力。对于ANNs,不需要指定特定的模型表单。相反,该模型是基于数据呈现的特征自适应地形成的。这种数据驱动的方法适用于许多没有理论指导来建议适当的数据生成过程的经验数据集。
在本文中,我们提出了一种混合方法来预测时间序列同时使用ARIMA和ANN模型。混合模型的动机来自以下观点:首先,在实践中往往难以确定所研究的时间序列是由线性或非线性的潜在过程产生的,或者在样本外预测中某一种方法是否比另一种方法更有效。因此,预测者很难为他们的特殊情况选择正确的技术。典型地,尝试了许多不同的模型,并选择了结果最准确的模型。
然而,最终选定的模型不一定是最适合未来使用的,因为有许多潜在的影响因素,如采样变化、模型不确定性和结构变化。将不同的方法相结合,可以减少模型选择的工作量。第二,真实世界的时间序列很少是纯线性或非线性的。它们通常同时包含线性和非线性模式。如果是这样的话,那么ARIMA和ANNs在建模和预测时间序列方面都是不够的,因为ARIMA模型不能处理非线性关系,而单独的神经网络模型不能同时处理线性和非线性模式。因此,将ARIMA模型与ANN模型相结合,可以更准确地对数据中复杂的自相关结构进行建模。第三,在预测文献中几乎普遍认为,没有一种方法在所有情况下都是最好的[4,19,23]。这在很大程度上是由于现实世界的问题通常在本质上是复杂的,任何单个模型都可能无法同样好地捕获不同的模式。例如,在使用神经网络进行时间序列预测的文献中,大多数研究[34,36,37,44 - 47]以ARIMA模型为基准,检验ANN模型的有效性,得到混合结果。包括几次大型预测竞赛在内的许多实证研究表明,通过结合几种不同的模型,预测精度往往可以在单个模型的基础上得到提高,而不需要找出“真实”或“最佳”的模型[6,23,24,28]。因此,组合不同的模型可以增加在数据中捕捉不同模式的机会,并提高预测性能。一些实证研究已经表明,通过结合几个不同的模型,预测的准确性往往可以提高个人模型。此外,考虑到数据中可能的结构变化,组合模型更加健壮。
在著名的M-competition[23]模型中,多个模型的预测组合往往会提高预测的性能,因此,采用混合模型或组合多个模型来提高预测精度已成为一种常见的做法。自从Reid [32], Bates和Granger[1]的早期工作以来,关于这个主题的文献有了显著的扩展。Clemen[6]提供了该领域的全面回顾和注释参考书目。模型组合预测的基本思想是利用每个模型的独特特征来捕捉数据中的不同模式。理论和实证结果都表明,将不同的方法结合起来是一种有效且高效的提高预测的方法[22,28,29,40]。在神经网络预测研究中,已经提出了一些组合方案。Wedding和Cios[39]描述了使用径向基函数网络和Box-Jenkins模型的组合方法。Luxhoj等人提出了一种混合计量经济学和神经网络方法的销售预测。Pelikan等人[30]以及Ginzburg和Horn[13]提出将几种前馈神经网络相结合来提高时间序列预测精度。
本文的其余部分组织如下。在下一节中,我们将回顾用于时间序列预测的ARIMA和ANN建模方法。第3节介绍了混合方法。第4部分报告了三个真实数据集的实证结果,第5节含有结论意见。
2.时间序列预测模型
时间序列建模有几种不同的方法。传统的统计模型包括移动平均、指数平滑和ARIMA是线性的,因为对未来值的预测被限制为过去观测值的线性函数。由于线性模型在理解和实现上相对简单,因此在过去的几十年里,线性模型一直是主要的研究重点和应用工具。为了克服线性模型的局限性,解释实际问题中观察到的某些非线性模式,提出了几种非线性模型。
2.1ARIMA模型
在自回归综合移动平均模型中,变量的未来值被假定为几个过去观测值和随机误差的线性函数。也就是说,生成时间序列的底层流程具有这种形式:
(1)
其中和分别是时间周期的真实值和随机误差为模型参数。和是模型参数, 和是整数,通常被称为模型的阶。随机误差, 假定为均值为0,方差为恒定值的独立同分布,(1)列举了ARIMA模型族的几个重要的特殊情况。如果,则(1)为p阶的AR模型,当时,模型简化为q阶的MA模型,ARIMA模型构建的中心任务之一是确定合适的模型阶数。
基于Yule[42]和Wold[41]的早期工作,Box和Jenkins[2]开发了一种构建ARIMA模型的实用方法,它对时间序列分析和预测应用具有根本性的影响。Box-Jenkins方法包括模型识别、参数估计和诊断检查三个迭代步骤。模型识别/正离子的基本思想是,如果一个时间序列是由ARIMA过程产生的,那么它应该具有一些理论上的自相关特性。通过将经验自相关模式与理论自相关模式进行匹配,通常可以实现。
在识别步骤中,为了使时间序列保持平稳,通常需要进行数据转换。在建立一个对预测有用的ARIMA模型时,平稳性是一个必要条件。平稳时间序列的统计特性,如平均和自相关结构,随着时间的推移是恒定的。当观测到的时间序列呈现出趋势和异方差时,在拟合ARIMA模型之前,通常会对数据进行偏差和功率变换,以去除趋势并稳定方差。
一旦确定了暂定模型,对模型参数的估计就很简单了。 估计参数,以使错误的总体度量最小化。 这可以通过非线性优化程序来完成。 模型构建的最后一步是对模型适当性进行诊断检查。 这基本上是检查是否满足关于误差t的模型假设。 可以使用一些诊断统计数据和残差图来检查暂定娱乐模型对历史数据的/ t的优劣。 如果模型不足够,则应确定一个新的暂定模型,然后再次进行参数估计和模型验证步骤。 诊断信息可能有助于建议替代模型。
这个三步模型构建过程通常会重复几次,直到最终选择出满意的模型。然后,可以最终使用选择的模型进行预测。
2.2时间序列建模的ANN方法
当模型形式的线性约束放宽时,可以用来描述和预测时间序列的非线性结构的可能数量是巨大的。一个好的非线性模型应该“足够通用,能够捕获数据中的一些非线性现象”。人工神经网络是能够近似数据中各种非线性的模型之一。
混合的方法
ARIMA和ANN模型在各自的线性或非线性领域都取得了成功。然而,没有一个模型是适用于所有情况的通用模型。ARIMA模型对复杂非线性问题的近似可能不够。另一方面,用神经网络来建模线性问题得到了好坏参半的结果。例如,Denton[10]利用模拟数据表明,当数据中存在异常值或多重共线性时,神经网络的表现明显优于线性回归模型。Markham和Rakes[25]还发现,神经网络在线性回归问题中的性能取决于样本大小和噪声水平。因此,盲目地将ANNs应用于任何类型的数据是不明智的。由于在实际问题中很难完全了解数据的特性,因此同时具有线性和非线性建模能力的混合方法是一种很好的实用策略。通过组合不同的模型,可以捕获底层模式的不同方面。
将时间序列考虑为由线性自相关结构和非线性分量组成是合理的。也就是说
式中,Lt为线性分量,Nt为非线性分量。这两个分量必须从数据中估计出来。首先,我们让ARIMA对线性分量进行建模,然后线性模型的残差只包含非线性关系。设为线性模型在t时刻的残差,则
在哪里的预报值时间t的关系。(2)残差估计的重要诊断线性模型的充分性。如果残差中还存在线性相关结构,线性模型就不适用。然而,残差分析无法检测数据中的任何非线性模式。事实上,目前还没有对非线性自相关关系的一般诊断统计。因此,即使一个模型已经通过了诊断检查,在非线性关系还没有被适当地建模的情况下,该模型仍然可能是不充分的。残差中任何显著的/不显著的非线性模式都将显示出ARIMA的局限性。利用神经网络对残差进行建模,可以发现非线性关系。对于个输入节点,残差的ANN模型为
其中f是由神经网络确定的非线性函数,t是随机误差。
f是一神经网络确定的非线性函数,是随机误差。如果模型f不是合适的,误差项不一定是随机的。因此,正确的模型识别是至关重要的。表示天气预报从(7),组合预测
综上所述,混合系统的建议方法包括两个步骤。在第一步中,我们使用ARIMA模型来分析问题的线性部分。第二步,建立一个神经网络模型来模拟ARIMA模型的残差。由于ARIMA模型不能捕捉数据的非线性结构,因此线性模型的残差将包含有关非线性的信息。神经网络的结果可以用来预测ARIMA模型的误差项。该混合模型利用了ARIMA模型和ANN模型的特点和强度来确定不同的模式。因此,利用不同的模型分别对线性和非线性模式进行建模,再将预测结果结合起来,可以提高模型的整体建模和预测性能。
如前所述,在构建ARIMA模型和ANN模型时,常常需要对模型顺序和模型充分性进行主观判断。这种混合方法有可能采用次优模型。例如,当前Box-Jenkins方法的实践主要关注低阶自相关。如果低阶自相关系数不显著,则模型被认为是足够的,即使高阶自相关系数仍然存在。这种次优性可能并不影响混合模型的有效性。Granger[15]指出,混合模型要产生更优的预测,组件模型应该是次优的。一般来说,人们已经注意到,把基于不同信息集的个别预测结合起来比较有效。
实证结果
4.1数据集
三个著名的数据集——沃尔夫的太阳黑子数据、加拿大猞猁数据和英镑兑美元汇率数据——在本研究中被用来证明混合方法的有效性。这些时间序列来自不同的地区,具有不同的统计特征。它们在统计和神经网络文献中都得到了广泛的研究。线性和非线性模型都已应用于这些数据集,虽然或多或少在这些系列中发现了非线性。
我们考虑的太阳黑子数据包含了从1700年到1987年每年的太阳黑子数量,总共给出了288次观测。对太阳黑子活动的研究对地球物理学家、环境科学家和气候学家都有实际意义。数据序列被认为是非线性和非高斯的,常被用来评估非线性模型的有效性。这个时间序列的图(见图1)还表明存在一个周期模式,平均周期约为11年。太阳黑子数据已被广泛地研究了各种各样的线性和非线性时间序列。
图1 太阳黑子系列(1700 -1987)
图2 加拿大猞猁数据系列(1821-1934)。
图3 英国石油/美元汇率周系列(1980 -1993)
猞猁系列包括每年在加拿大北部麦肯齐河地区被捕获的猞猁数量。数据绘制在图2中,它显示了大约10年的周期性。数据集有114个观测值,对应1821-1934年。时间序列文献也对其进行了广泛的分析,重点是非线性建模。在其他研究[3,33]之后,数据的对数(以10为底)被用于分析。
最后一组数据是英镑对美元的汇率。预测汇率是国际上的一项重要而又复杂的任务。各种线性和非线性的理论模型已被开发,但很少有比简
剩余内容已隐藏,支付完成后下载完整资料
英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[268389],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。