由多元时间序列评估因果关系外文翻译资料

 2022-12-11 19:01:42

英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料


由多元时间序列评估因果关系

P. F. Verdes

海德堡大学环境物理研究所, 地址: Neuenheimer Feld 230,D - 69120 海德堡,德国

在本次研究中,我们针对弱相关的时间序列的因果关系提出一个一般的非参数检验。更准确地说,我们研究归因的问题,即适当的比较两个或两个以上的外部动态触发给定系统的的相对影响。我们举例说明了该方法可以应用在非常不同的领域,如生理学和气候学。

1.引言

时间序列分析中最重要的问题是检测相关关系和因果关系。随着科学技术的发展,我们有了更多的也更为精确的数据,从而这个问题也受到了越来越多的关注。它的应用几乎涉及了所有的科学领域,例如物理、经济、生态等。举个例子,它在生理领域得到了很好的应用,特别是大脑的研究。具体来说,信息的交互记录脑电图渠道有助于临床实践中通过锁定大脑中的异常区域来研究癫痫。

常用工具的依赖关系是线性估计互相关,交叉谱和互信息。然而,这些措施要求系统性质是对称的,因此,不适合评估因果关系。目前,许多方法已经被应用在了相互作用的研究里,其中一个是测试对一个序列的预报是否可以通过其他序列传来的信息来改进。最初是由Wiener提出,之后Granger正式提出了随机过程的线性回归模型。如果给定时间序列预测误差的方差通过对第二个时间序列的过去测量值线性回归而减少,那么就说后者对前者有因果影响。当然,这个作用可以反演出因果影响的方向问题。因为格兰杰因果关系是制定的线性模型,其直接应用于非线性系统可能不合适。格兰杰这样的想法一直延伸到非线性情况,通过限制其局部线性模型在区域内的应用,然后平均得到整个数据集的统计量,或者考虑在全球非线性模型中添加变量来减少错误。尽管这些方法成功了,但我们必须注意到基于模型的方法(线性或非线性)可能会有模型误设的缺点。为了避免这个问题,我们将基于信息论的一般非参数检验固定和弱相关的时间序列的因果关系应用在此次研究中。更准确地说,拟议中的措施构建条件熵之上,与互信息或落后相关的标准形式不同,它使我们能够区分实际的信息传递。此外,基于自相关积分熵至少需要假设存在潜在动力系统以及具有耦合的性质,他们的应用不能假设任何确定性的过程。具体地说,我们的目的是比较相对影响,即两个或两个以上的外部动力施加在一个给定系统的影响。为此,我们首先参考Schreiber的理论然后推导出一个新的信息理论归因方法,在下一节中我们将详细描述。

2.理论

我们先简短的回顾转移熵有关概念。假设我们观察三个物理过程X,Y和Z,分别观察,,以及概率,和。我们设想X,Y和Z作为一个整体的交互子系统,,和作为符各自的内部状态的多元描述。我们比较关注的是Y和Z对X的相对影响的比较。Y到X的转移熵的定义为:

其涵盖了复合系统的所有格点i。最吸引人的特点是,与交互信息或条件熵不同——其X和Y本质上是不对称的,检测发现信息是定向传输的。由于Z在对数状态下的调节,它忽略了X和Y之间所有可能引发了它们与Z相互作用的静态相关性。(这种情况下多数子系统是非常简单)对连续系统言,在时间序列的应用中,转移熵是通过降低状态空间分辨率ɛ获得的,从而使依赖于区间的大小。在(1)中所涉及的条件概率表示为而后者可以用观测的频率作为近似值

,、同理,表示可用的i,j的总数,n是满足相应的距离限制的格点总数。

在这种定义方式下,传递熵最适合用来研究齐次空间扩展系统,如同一地图下格点的耦合。相反,正如中提到的一个性质不同的过程,不同灵敏度的系统对每个外强迫最有可能的响应,和熵转移(1)将取决于整个信号的动态范围。为了克服这个困难,我们将通过扭曲状态空间的三维区域重新定义概率

现在的问题自然就变成如何选择适当的值Y和Z,例如:在Y的条件下,我们考虑条件概率

如果对固定的,我们认为只是的函数,其中

即最大化的原理。条件概率是如何作为Y的函数起作用? 当时,其条件作用影响趋于零,因而。而时(x与y相对独立),不变或者单调增长到一个小于1的极限。若删除,的计算会因有限的样本大小而变得不可靠并趋近于0。因此,Y到X的信息传导的特性,只能在一个适当的区间内适用,过大或过小的都不行。这个过程使得现在对Y范围的分配变得无关紧要。同理,我们令。

最后,我们添加一个归一化因子来建立一个强化措施并定义Y到X的信息传递为

其中N是可用的数据库的长度。那么,现在一个重要的问题是如何评估通过(2)算出的信息传递在每个区间ɛ上的重要性。为此,在建立复合状态向量之后,我们生成随时间对的随机控制。然而,我们注意到,这种不规则性会白噪声化Y的功率谱。(简单起见,我们先假设所有子系统都是线性的。)其属性将完全改变,这种随机会表现出广泛的不规则性,即使Y数据表现出一个非常平稳的信号。因此,为了寻求比较奠定了良好的基础,我们的第一步是打乱整个原始向量,产生最初频谱。

3.举例

为了说明这种方法的优势和局限性,我们首先以一个一维的系统作为简单的例子研究。我们生成一组样本,i= 1,hellip;hellip;N,据

图1中所示。按照预期,X同时表现出大范围和小范围的变化,即Y 对X的贡献大于Z对X的贡献。现有的这些变量之间的因果关系直观上难以发现,原因可能是被其高度非线性的特点所隐藏。例如,当Z增加,X可以做出增加或减少的反应,当Z减小也是如此;Y也是相同的情况。这很容易反映在减弱的标准相关系数: =minus;0.09和 =minus;0.08。我们还对所有子系统的时间序列添加了高斯噪音,并令其的标准差比的取值从0增加到1,这里C分别表示X、Y、Z

如前一节所述,我们开始初始化复合系统的状态。我们计算密度并用Y来评估这个结果,Z同理。以这种方式获得的N=100年和1000年的信息传递、已绘制在图2中。首先考虑如左边图像里无噪声的情况。毫无疑问,检测会随着有效观测数据的增多而变得更为清晰。特别是,,随着随机控制数据的不确定性减小,IT对于所有的区间ɛ都几乎可以忽略不计。对于小数据集和邻域大小,我们的测量似乎偏高。我们需要绝对精确的IT值,因此需要校正这个结果。然而,由于这个偏差和我们做比较的目的无关,在后面的内容里我们将忽略它。我们进一步注意所有尺度上Y 相对 Z的优势,以及如何比在每个尺度上更具代表性(0.4lt;ɛlt;0.7,N = 1000),这是解释了为什么在X的大尺度变化上Y比Z更具可靠性

图2右面板是在有噪音的情况下的检测,我们惊讶的发现增大了,特别是在N = 100里尤为明显,N = 1000也有增长。这个结果与预期想矛盾,原则上,自然情况下污染噪声的存在会削弱统计数据所检测出的能量。为了进一步研究这个问题,我们构造一个非正式的估量Ay (Az)表示()下面的面积大小对应超过2sigma;的控制水平,并用细线绘制在图2中。我们在图3中所展示的,分别取N = 100,400和1000以Ay 、Az作为噪声强度的函数。我们观察到,只有Az符合我们的预期,即,随着噪音的提高,其越来越隐藏X对Z的依赖。回顾Eq.2我们看到,随着的增长相比有更快的减少趋势。说换句话说,随着较少的干扰输入,Z首先被噪音所埋没(用较少的数据的话这种现象更明显),Y的重要性在我们的方法里被相对强化了。在图3里N=100,我们可以看到噪声等级是强大到足以破坏从Z到X的任何信息传递的检测,而这个过渡却使Ay大幅增加。

4.应用

为了说明这个工具在不同领域的应用的可能性,在本节,我们试着初步研究气候变化的问题。众所周知,全球气候几十年来变化迅速,如:反映热带环流的演变模式,季风降雨等气候参数。特别是,全球气温自1860年以来增长了0.6plusmn;0.2℃。日益重要的一个问题是,确定几个潜在的能够解释这个现象的因素,例如:温室气体的排放,太阳的辐射输出增加,火山活动的缺乏,大气臭氧的变化等。其中,温室气体排放GHG而不是太阳总辐照度STI,因其是人为的作用而显得尤为重要。

一方面,现在我们的共识是全球变暖与温室气体的增加有关,由大量的海气环流模型AOGCMs对过去几个世纪的模拟可以得到证实。另一方面,大量的古气候全球气温的重建表现出与太阳辐照度的长期动态的显著相关性,但太阳能的绝对变化强度很小,其作用放大的物理机制尚未确定。我们可以在这些方向上做尝试,如:通过最近GISS(Goddard Institute for Space Studies)戈达德太空研究所平流层环流模式的实验表明,太阳活动影响表面风,海平面压力,和区域表面温度。然而,只要GCM模式精制及其性能改进,这些模拟的结论就要被修改。这就构成了一个艰巨的任务,因为大气动力学是极其复杂的,还没有完全被弄清楚:在其他更细节的问题上,它的模型必须考虑土地,海洋,和相关的非线性反馈,连同他们的化学反应来增加辐射波长。人们普遍接受AOGCMs至少对区域气候的行为模式,水循环、海冰漂移的不确定性做出了定量判断。剩下的矛盾之一是,他们不能完全解释观察到的对流层顶和底层温度在过去的20年里的趋势差异,即使没有遗漏任何已知的外部影响。

鉴于这些问题,无模范统计方法是更有吸引力的。其中一个优势是,这种方法提供了直接测试假设观测数据的可能性。沿着这条思路的标准做法是采用“最佳检测技术”,本质上是多元回归的框架,假设观察到这些现象为外部信息和噪音的线性组合作用的结果。这个过程包括估计未知系数和测试使他们消失的零假设。由信息理论所发展来的技术已经被应用于一些气候问题,但是我们所知,没有非参数方法一直研究这个特定的问题。在本节中,我们将这种工具测量应用于上述那些对产生全球温度的时间序列信息有贡献的因素。

为了研究这个问题我们关注过去400年的历史。我们选择这些不含时滞效果的变量,,,来描述这个系统的状态空间,因为小尺寸在计算方面和避免维数灾难效果都有优势。图9中所示为由物理基础重建大小的年平均数据。我们这里表示温室气体二氧化碳和其他混合微量气体如甲烷、氮的氧化物和氟氯烃的标准等效辐射强迫。为了保持尽可能简单描述,其他潜在的强制机制如对流层气溶胶均排除在外。排除火山强迫的另一个原因是,规律的火山活动有一个冷却效果,且与温度水平无关。因此,温度变化也应该作为一个新的正常状态变量来解释这种交互。

在图10展示和作为长度范围的函数,在这种情况下的单位是温度异常。我们观察到二氧化碳对T所有尺度上的影响都占主导地位,因此二氧化碳变化对获得T的信息比STI更为有意义。在这最后一个例子中,我们注意到太阳辐照度变化在北半球平均气温的影响将最有可能观察到约0.2℃。这个数字呈现相关文献中的结果相一致,作者报道,与20世纪的GISS GCM模拟表明,太阳辐照度变化很大程度上影响地球表面温度0.2℃ - 0.25℃。

我们还进行了滑动窗口分析,深入了解这些尺度之间的耦合的可能变化特征。考虑到在这种情况下,数据可用性比生理上的应用是十分有限的,我们只有考虑半尺寸窗口,即L = N / 2 = 200。我们以1年为单位滑动这个200年窗口,通过控制数据来控制计算IT*→T(ɛ)在2sigma;内的区域面积。我们现在任意选择分配获得的因果关系的对应的区间的终点。在图11中,我们可以看出CO2和STI的相对影响发生重要变化的时间出现在不同的世纪。更准确地说,我们观察一个主导太阳能对温度异常的影响从前工业化时代到19世纪末一直逐渐下降。到了20世纪的这种模式转变成越来越流行以人为活动作为温度变化的主要解释因子,即使其同时说明STI在过去的60年作用也有增加。

总结,初步研究显示,使用一个无模式的方法,STI对全球气温的作用比温室气体的作用小,然而,必须指出的是,我们只使用一个特定的气候重建覆盖过去400年的历史,它只能表示一个非常有限的古气候时间跨度。

5 .结论

我们提出了一种新的无模式方法,信息理论工具可以帮助比较两个或两个以上外部动力对一个系统的相对影响。综合实例和两个有趣的实际应用例子属于不同的领域,我们已经表明,这种方法使我们能够较为容易分析内外许多潜在非线性动力学和物理过程。

气候变化的具体应用归因问题显示,以二氧化碳为代表的温室气体,比太阳辐射输出产生更大尺度的对全球气温的影响。但我们是一个数据驱动的方法,具有避免可能出现的模型参数错误的优点。

气候变化的具体应用归因问题显示为代表的排放的温室气体二氧化碳,显著影响全球气温比太阳辐射输出在更大的尺度上。我们的结果是同意建立共识的文献,但本身是一个数据驱动的方法,避免可能的模型设定错误的优点。然而,我们想指出,我们的结果必须考虑限制数据库初步获得时,需要确定使用新可用千年重建

最后,要注意非平稳情况。改变环境或内部条件在真实数据里是很普遍的,其构成的关键问题不仅是此次研究,更是整个时间序列分析的分支。我们普遍接受生理和地球物理数据不是静止的,但很少有人尝试发展适当的统计方法来应对这个问题。参照我们的正式的推导,非平稳意味着我们不能解释测量探视频率在相空间中真正的概率。然而,虽然我们放弃了对于静止情况的考虑,但是我们仍可以得到有用的结论。这个观点在之前的研究文献中也有采用,此措施本质上是利用其相对特征在区域或者数据控制影响上做对比。如果稍微放宽其应用条件,这个分析方法可以在识别弱和强耦合之间的指数周期而变得更丰富。

参考文献

致谢

本论文由Alexander von Humboldt基金支持。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[31078],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。