英语原文共 8 页,剩余内容已隐藏,支付完成后下载完整资料
使用支持向量回归算法预测每小时O3浓度
E.G. Ortiz-Garciacute;a a, S. Salcedo-Sanz a,*, Aacute;.M. Peacute;rez-Bellido a, J.A. Portilla-Figueras a, L. Prieto b
a阿尔卡拉大学信号理论与通信系28871阿尔卡拉德埃纳雷斯,马德里,西班牙
b西班牙马德里康普顿斯大学地球、天文和天体物理学II物理系
摘要:在本文中,我们介绍支持向量回归算法(Support Vector Machine Regression algorithm,简称SVMr)在马德里市区每小时臭氧值预测中的应用。 为了提高SVMr的训练能力,我们使用了最近提出的基于SVMr超参数搜索空间减少的方法。 使用改进的SVMr,我们研究了可能会改变臭氧预测的不同影响,例如给定站点之前的臭氧测量,邻近站点的测量以及气象变量的影响。 我们使用统计测试来验证将不同变量纳入SVMr的重要性,我们还对比了使用神经网络算法(多层感知器)获得的结果。 本研究在马德里大气污染监测网络的5个不同站点进行,所得结论得到实际数据的支持。 这项工作的最终结果是得到了一个能够稳定且准确预测马德里地区对流层臭氧的软件。 此外,由于SVMr的预测工具足够灵活,可以包含任何其他预测变量,如城市模型或交通模式,这使得通过SVMr获得的预测的准确性还可以提升。
关键字:O3浓度预测,支持向量回归算法,空气质量
1. 简介
目前,臭氧(O3)以及氮氧化物(NOx),是世界上所有大中城市城市地区最主要的空气污染物之一(Agirre-Basurko等人,2006年)。 众所周知,臭氧是一种二次污染物,不会直接被排放到空气中,而是当氮氧化物(NOx)和挥发性有机化合物(VOC)作为主要污染物时,在太阳光的作用下相互作用而产生的(Ionescu等人,2000; Barrero等,2006)。 此外,O3被认为是降低城市空气质量的主要污染物之一(Al-Alawi等人,2008; Kanaroglou等人,2005);高浓度的臭氧可致人死亡,这种现象主要发生在夏季。因此,O3浓度,特别是O3最大浓度的研究是需要我们主要关注的。
有关建模和预测O3浓度的方法可以在下列几篇文献中找到(Massart和Kvalheim,1998a,1998b; Palacios等人,2002; Wang和Lu,2006; Felipe-Sotelo等人,2004),其中许多是关于建模或预测一列中全部O3的浓度或研究区域内污染物分布的问题。也有很多世界不同城市的空气质量站做了预报地面O3的工作(Brunelli等,2007; 碣fias-Vaacute;zquez等人,2005; Balaguer- Ballester等,2002; Lu和Wang,2008)。 之前很多论文研究的一个重要问题是污染物的时间预测,其中考虑了若干因素,例如气象学、其之前的浓度及交通或城市结构等,以便预测未来某站点的浓度值。这个具体的问题已经成功地用不同的方法来解决,例如物理方法(Massart和Kvalheim,1998a,1998b),经典统计方法(Sousa等,2006)或者诸如神经网络的软计算方法(Lu等人,2006; Dutot等人,2007; Lu和Wang,2008; Aneiros-Perez等人,2004)。
最近,支持向量机范例(SVMs)(Smola和Schouml;lkopf,1998年)在预测与环境有关的问题方面发挥了重要作用(Wang等人,2008; Luan等人,2005; Lu和Wang,2005; Osowski和Garanty,2007年)。 特别是针对回归问题开发的支持向量回归算法(SVMrs)。该算法特别适用于各种回归问题,因为它们不仅考虑了数据的误差近似值,而且还考虑了模型的普遍化。当对新数据进行评估时,该算法有能力改进模型的预测。 以前的一些工作已经将SVM或SVMr方法应用于O3预测或相关问题。 Salazar-Ruiz等人(Salazar-Ruiz等,2008)将SVM方法与其他的人工智能和统计方法在加州的对流层臭氧预测问题上进行研究。Lu和Wang(Lu和Wang,2008)认为SVM方法适用于香港地面O3的预测。 作者提出了对分类问题的标准支持向量机进行创新性的修改,以便能够解决回归问题。Wang等人(Wang等,2008)提出了一种基于支持向量机的污染物在线预测系统,该方法的实验测试也在香港及周边地区进行。在与德里(印度)每日最大臭氧预测问题中的MLP和多元回归技术相比。, SVMr在均方误差方面获得比用于解决该问题的其他方法更好的结果。 Luan等人(Luan等, 2005)使用SVM对地面水平VOC的保留时间进行预测。 为了相同的目的,将SVM算法的性能与启发式算法的性能进行比较。Lu和Wang(Lu和Wang,2005年)在不同大气污染物的预测中测试了SVM算法的性能,包括O3和(Osowski和Garanty,2007年)支持向量机与小波混合,用于提高支持向量机方法在气象污染物预测问题中的性能。
在本文中,我们主要介绍SVMr算法在马德里小时O3浓度值预报中的应用,我们使用SVMr算法,该算法结合了基于边界的机制来更好地估计SVMr的相应超参数。 我们研究不同输入变量对SVMr算法预报O3浓度的影响:特别地,我们评估了一个测站中不同数量的过去浓度值、临近测站数据以及气象要素对O3预报的影响。我们还进行统计测试以便表征SVMr中不同输入变量的重要性。最后,我们将基于SVMr方法进行预报获得的结果与基于神经网络获得的结果进行比较,以便提高预测系统的预报精度。
本文其余部分的结构如下:下一部分介绍材料和方法,包括ε—SVMr方法的描述,SVMr超参数最优量的边界,马德里空气质量网络的介绍以及如何使用测站的高数值来提高O3预报的准确性。第三部分介绍了为完成本论文所进行的实验,在此部分我们提供了基于SVMr方法得到的主要结果,并且与基于多层感知机得到的结果进行了比较。第四部分介绍了本文得到的结论。
2. 研究方法
在本节中,我们将简要描述SVMr的主要特征,包括对所考虑的超参数搜索空间缩减的简要讨论。 我们也在这一节描述马德里市区空气质量观测网,其数据用于本文实验部分。
2.1 支持向量回归算法
支持向量机回归(SVMr)(Smola和 Schouml;lkopf,1998年)是过去几年最重要的预测统计模型之一。 SVMrs算法适用于大部分回归问题(Mohandes 等人,2004; Akay,2009; 侯和李,2009),因为它们不仅考虑了对数据的错误近似,而且还考虑了模型的泛化,即它们在必须评估新数据时改进模型预测的能力。尽管SVMr有几个版本,但在本文中我们只介绍经典模型,即Smola和Schouml;lkopf(Smola和Schouml;lkopf,1998)提出的ε-SVM。
用于回归的ε-SVM算法包括一组给定的训练向量集C={(xi,yi)|i=1,hellip;,l},用T训练一个模型,用下式来表示最小化一般风险函数:
其中w控制模型的平滑性,是输入空间到特征空间的投影的函数,b是偏差的参数,xi是具有维度N的输入空间的特征向量, yi是要估计的输出值,L(yi,f(x))是选择的损失函数。 在本文中,我们使用L1-SVRr(L1支持向量回归),其特征在于ε不敏感损失函数(斯smola 和Schouml;lkopf,1998年):
为了训练这个模型,有必要解决下面的优化问题(Smola和Schouml;lkopf,1998年):
约束条件为:
这种优化问题的双重形式通常是通过最小化拉格朗日函数得到的,由目标函数和问题约束构成。 在这种情况下,优化问题的双重形式如下:
约束条件为:
除了这些限制之外,还必须满足KarusheKuhneTucker条件,而且还必须获得偏差变量b。 我们没有详细说明这个过程,感兴趣的读者可以参考(Smola和Schouml;lkopf,1998年)。在该问题的对偶表达式中,函数K(xi,xj)是核函数,它是通过核函数的评估形成的,相当于点积lt;(xi),(xj))。 通常选取的这个核函数是一个高斯函数:
最终的函数的形式依赖于拉格朗日乘子ai,a*i,如下所示:
通过这种方式,可以获得求解二次问题的SVMr模型,给定一组超参数(在这种情况下为C,ε和gamma;)。 然而,获取这些超参数并不是一件容易的事,而且有必要实现寻优算法来估计它们(Ortiz-Garciacute;a等人,2009年)。
2.2 超参数寻优
在上一节中,我们介绍训练SVMr所需的二次优化问题。 如前所述,为了解决这个优化问题,我们需要定义超参数C,ε和gamma;。 这在实践中是一项艰巨的任务,因为没有一种理论方法来定义它们。 因此,有必要使用一些找到最佳超参数集合的算法,即产生性能最好的SVMr模型的集合。 另外,如果我们想要训练包含许多不同数据集的许多模型,我们需要一个快速且强大的超参数寻优算法,且不会失去准确性。Ortiz-Garciacute;a等人(Ortiz-Garciacute;a等,2009年)介绍了一种在训练时间和准确性之间取得良好平衡的新颖方法。 该方法基于经典的网格搜索,该搜索将搜索空间划分为围绕整个空间的均匀分布点。 然后,它评估在每个点使用超参数训练的模型的验证准确性,并且最终选择具有较小验证误差的模型作为最终的模型。 这种新算法中最重要的特征是增加了超参数搜索空间减少。 这些减少将搜索空间包围在执行网格搜索的较小子空间中。 这种缩小搜索空间的方法(Ortiz-Garciacute;a等人,2009年)由下面的方程描述:
式(12) 描述标准化超参数C与其余超参数之间的关系。 参数C与参数gamma;的关系特别重要,因为它在缩小搜索空间中起到很大作用。 剩下的边界(方程式(13)和(14))与支持向量之间的最小影响特征以及数据中超参数ε与噪声方差之间的闭合关系有关。 在应用这些化简之后,本文的实验部分使用了网格搜索算法来寻找SVMr的超参数,即O3预测问题
2.3 马德里空气污染监测网
马德里的空气污染监测网是西班牙最大的空气污染监测网,也是欧洲最大的之一。 它目前由27个广泛分布在城市中的测站组成。图。1和表1 显示空气污染测量站的位置和其他特征。 马德里自动空气污染监测网络始于1978年。最初,该网络由16个测量站组成,通过电话网络与数据控制中心相连,隶属于马德里市议会的空气质量部门。1989年,网络全面更新,新的“智能”站大为推广。此时开始系统测量NOx和O3。 现今的监测网络于2001年完成,当最后2个测站加入观测网时,由于技术原因,其他几个电台从原来的位置移开。
对城市污染物空间分布的研究考虑了两类监测网络来获取数据:常规网络和目的设计网络(Hoek等人,2008)。 本研究中使用的马德里空气污染监测网络是一个常规网络,它在有部署站点的城市的不同地点提供每小时O3测量。 一些其他研究已经使用了常规监测网络的数据,例如(Beelen等,2007; Agirre-Basurko等,2006; Coman等,2008; Ibarra-Berastegi等人,2008; Moore等人,2007)。
3. 实验部分
3.1 所用数据与研究方法
可用的数据库由马德里空气质量监测网络的27个站点(2002年至2007年6年)内的O3每小时测量值形成。 为了减少实验次数,我们只研究通常情况下臭氧浓度最高的测站的臭氧浓度的预报,即测站5、9、10、14和24。另外,我们只评估臭氧浓度最高的几个月的数据训练的模型的准确性,即夏季的7月和8月。在本文中,我们试图通过分析几个用不同特征训练的模型来获得预测给定测站O3浓度的最佳特征集。 注意不同的变量(之前的O3浓度,其他站的O3浓度,气象条件等)由于不同阶段数据的缺失可能会导致不同的结果。因此,我们需要根据所选特征来定义每个分析。因此,对于每个特征参数的选择,我们需要选择能够表征所有特征的输入向量集。另一方面,我们需要通过统计检验来比较不同的训练模型与不同的特征集之间的差异。因此,我们通过K折交叉检验方法将6年的可用数据筛选出来。通过这种方法,当K=5时我们得到了30个不同的数据集。所有进行的实验都是在Intel Xeon 2.66 Ghz上运行的,它具有4个内核和16 Gb的RAM内存。 进行的实验(SVM训练和相应的t检验)的计算时间稍微不同,取决于每个训练过程中包含的变量的数量。其在最简单的情况下不到1分钟,在包括所有变量的最难的情况下最多3分钟。 无论如何,请注意,在问题中评估支持向量机性能的完整过程非常快速,并且在提出的算法的实际应用中假设是相当合理的。
图一 马德里空气质量监测网络(红色)和气象站点(灰色)的测量站位置。
3.2
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[22639],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。