英语原文共 9 页,剩余内容已隐藏,支付完成后下载完整资料
无限维问题中的变量选择
,
Departamento de Matemaacute;ticas, Universidad de A , Spain
Institut de Matheacute;matiques, Universiteacute; Paul Sabatier, Toulouse, France
摘要
本文研究对象为自变量是函数形式的回归模型。所研究问题是寻找个指标中经过函数离散化后必须被纳入模型的指标。本文旨在展示连续型数据结构情形下如何开发一种新的特殊变量选择方法,此算法可以大大提高参数估计的收敛速度并且也大大削弱了对的限制性假设。
关键词:函数性数据分析,变量选择,高维问题,分区变量选择算法
1、引言
函数性数据分析是统计学当前的热门话题,涉及多种领域,人们可以在最近的许多文献中看到这个主题(Ramsay和Silverman, 2002, 2005; Ferraty和Vieu, 2006;Horvaacute;th和Kokoszka, 2012)。本文的主题是考虑函数型协变量的回归问题。在这种情况下,要面对两类问题。其一,人们希望生成参数估计从而对响应变量Y进行有效的预测;然而从另一面来讲,是所有的连续型变量都影响到了Y还是可以从中选出一部分来预测Y,是本文的一个探索目标。在最初的尝试中,由于离散型变量总是通过网格来观测,在建模问题中,会很自然的认为这是一个高维变量选择过程,其中解释变量的规格正是变量被观测的网络的规格。在实践中,网格的大小(设为)可以大大高于样本本身的大小(设为n),从这个意义上讲,在最近发表的涉及到变量数高于样本量数的文献中,这个问题确实占据了一席之地(例如:Candes and Tao (2007), Huang et al. (2008), Meier et al. (2009), Bickel et al. (2009),是本文研究范围在一定限制条件下的结果)。
然而,这不是一个标准的变量选择问题,在这个意义上,连续型变量在该问题中表现出强特异性。首先,对观测到的网格点进行排列,其多种可能性表现出了特异性。此外,当该问题中的维度来自于一个更加精细的离散化网格时,增加并不意味着增加新的信息(例如高维问题),而是意味着拥有更精细的信息。本文旨在展示一种全新的、能将特异性考虑在内的、能够适应函数性情况的变量筛选方法。
本文提出了一种普适的、可以迎合多种估计与不同变量选择方法的模型。文章组织如下。本文所提出模型在第二节中细谈,而所谓的分区变量选择方法(PVS)将在第三节中谈到。本节阐述我们的主要结果(定理1),并在其中对PVS方法的渐近性质进行了描述。值得注意的是,本节是以普适的方式编写的,没有指定任何类型的参数估计模型。之后,第四节会讨论PVS方法是如何应用到众多不同的估计方法中(最为出名的有惩罚最小二乘估计和极大似然估计),并且阐述了第三节中所提到的渐近性为何比其他没有考虑此问题特异性的变量选择方法更引人注目(无论是在收敛速度还是在条件下计算)。第五节使用来自于计量化学的曲线数据,通过优等有限样本抽样分析展示出的理论优势。该例子展现了PVS方法优于传统的未整合连续型变量方法之处,具体体现在提高预测能力与降低计算成本两处。
2、模型
统计样本由n对组成,,为独立同分布,其中是一个来自于无限维空间的随机变量,Y是一实值随机变量。即便它们本质上都是连续的,但是函数性变量仅能通过精细的网格才能观察到。为了验证此观点,下文将会用一个网格规划来限制曲线数据的观测:
在这个意义上,网格规划是正规的:
(2.1)
此外,假定曲线足够光滑:
(2.2)
并且被限制远离零点:
(2.3)
在下面,曲线的离散观测可表示为:
(2.4)
回归模型可写作如下形式:
(2.5)
该模型假定只有曲线的几部分对响应变量Y有影响,也就是说中只有少数变量真正进入了模型,这也是下面假设的含义:
(2.6)
此外,假定:
(2.7)
着眼于模型定义的条件(2.5)和(2.6)可以认为,人们必须处理一个常见的高协变量数的变量选择问题。然而响应变量是连续型变量(见(2.4)),当接近时,对应的协变量与将会与响应变量Y大致包含相同的信息。这是一重要的特异性问题,需要纳入模型。为此,我们引入两个整数序列与(当时,):
假设不失一般性:。如果我们表示:
我们的条件可以表述如下:
(2.8)
并且:
(2.9)
这两个假设的限制条件将在第四节中讨论(见备注1)。当与被选定时,对任意的,可表示一个特别的整数序列,,即有:
标准变量选择方法旨在构建模型(2.5)的线性参数估计,并用它来估计相关变量(见(2.6))。本文不需要假设任何特定的方式来构建这些估计(详见备注二,第四节中有详细的注释与例子)。事实上,只要在这里假设手头上有一些“较好的”变量选择方法,其对于涉及到变量子集:的任何线性模型,都有较好的处理。为了清晰的说明这一点,考虑对任意的子集:
有线性模型:
当,假定有一些变量选择过程导致的估计满足下列基本性质:
当时: (2.10)
要么是:
(2.11)
或者是:
(2.12)
这里我们已经表示了。正如在第四节中所说,条件(2.10)~(2.12)是满足不同情况下的估计的(例如备注2中的最小二乘估计)。
3、PVS方法
PVS算法有两个步骤,第一步,将一个样本分为渐进大小相同的两个独立样本,分割方法如下:
首先尝试构造变量的等间距子集:
对特定模型使用(2.10)~(2.12)所述的变量选择算法:
(3.1)
在此模型中可用如下形式表示相关系数与其估计值的集合:
为估计的参数值,且有一假设:
(3.2)
首先来回顾一下,仅由第一个样本数据来构建;其次,我们一再强调本文主旨是任何变量选择算法都可用于这一阶段,这也是我们将其做的更加普适的原因,我们没有给出参数估计的具体表达形式。
现在,在第二步中,我们考虑与第一步中与已经选出的变量足够接近的变量,即定义:
并再次将(2.10)~(2.12)所述的变量选择方法应用到模型中:
(3.3)
通过第二步,我们可以定义参数估计与(仅由第一个样本数据来构建)。最后,当回归到模型(2.5)时,我们令:
当然,变量的选择估计集由下式定义:
在下面的定理中我们叙述了参数估计的一致性(见结果(3.4))与变量选择算法的一致性(见结果(3.5))。定理的最后一项说明了收敛速度(见结果(3.6))。证明将在最后附录中给出,而接下来的第四节将讨论这些结果如何改善现有文献中的变量选择算法,无论是在收敛速度方面(见备注3)或在较为宽松的条件下的可能的协变量数(见备注4)。我们定义。
定理1:在条件(2.1)~(2.3),(2.5),(2.6),(2.8)~(2.11)与(3.2)下,当时,若有:,则:
(3.4)
且有:
(3.5)
此外如果考虑(2.12),则有:
(3.6)
4、备注
我们首先说明本文的主要假设,分别说明与模型相关的(见备注1)、与估计量相关的以及与变量选择方法相关的(见备注2)。然后,我们会讨论本文结果在通常收敛速度上(见备注3)与对更高维协变量的处理上由于传统方法之处(见备注4)。
模型评价:当然,不论是PVS方法的提出还是定理1的结论,都是建立在模型(2.5)与(3.1)是可识别的条件之下的。注意到,一般来讲,可识别性可以通过对协变量的协方差矩阵施加一定的假设来得到(见Zhao和yu,2006;Huang和Xie,2007;Huang等,2008,等等)。另外,值得指出,的下界(见条件(2.3))只适用于清晰的阐述;事实上,如果不满足这一条件(等价条件为)但却满足或者是,此时我们也使用替代对所有的结果进行了验证。同样的,对于(2.7)中的常数C与(2.8)、(3.2)中的常数c,我们可以在0到上的一些特定水平,使用与的收敛结果替代。最后,条件(2.8)和(2.9)的具体函数是为了解决本问题针对性建立的,不能用于其他高维变量选择问题。函数设置的目的是当变量的维度增加时,它们之间的相关性也增加。这样一来,随着的增加,两连续型变量、对响应变量Y的影响会越来越相似。从数学的角度来看,条件(2.8)和(2.9)是相当普适的,接下来的备注1将会展示一个具体的、有代表性的例子。
备注1、如果系数来自于一个离散化函数且满足相同平滑假设的数据本身,即:
对于满足(2.2)的,且有,那么条件(2.8)和(2.9)都满足。
换而言之,可以认为模型(2.5)是以下函数性线性模型的离散型式:
在通常的文献中,函数性线性模型(最新进展的概述请查阅Horvaacute;th与Kokoszka(2012)的第二部分)的通常假设是和存在于相同空间。此外,上述方法对在考虑到高维问题的变量选择方法中很常见(见Huang和Xie,2007;Huang et al.,2008)。因此,备注1直接适用。
一个关于估计值的例子:本文使用一般方法,允许通过各种方法来估计线性参数和进行变量选择,只要使用的方法满足一般条件(2.10)-(2.12)。在文献中,人们可以找到两种主要的方法,基于最小二乘的方法(例如Tibshirani(1996),Efron et al.(2004),Huang和Xie(2007),Huang et al.(2008); Meier et al.(2009))与基于似然估计的方法(见Fan和Li,2001;Fan和Peng,2004)。所有这些方法都是满足条件的,对于某些罚函数和欠缺某些假设条件的,有假设(2.10)-(2.12)。为弥补这一观点,我们先来回顾一下最小二乘算法的原理以及满足假设的条件。
备注2、给出回归模型:
的惩罚最小二乘估计通过如下目标函数得到最小化值b:
其中,,,,是一个具有调整参数的罚函数,。
正如在Huang和Xie(2007)中展示的那样,以下条件:(1)协变量是一致有界的,且;(2)的最小与最大特征值分别有界远离0与无穷;(3),如果除了并且使用惩罚SCAD,那么存在调节参数使假设(2.10)-(2.12)满足:。事实上,在相似的条件下,Huang et al.(2008)在考虑()惩罚后也得到了相同的结论。最后,为了在惩罚(LASSO估计)的情况下保证结论的正确性,必须添加一附加条件:强不可表示条件(详见Zhao和Yu,2006)。
结果解释:为了说明定理1的优点,我们先来看一看此方法与标准一步变量选择方法的结果优劣。我们旨在使用先前提到过的例子来展示我们的方法,即SCAD惩罚最小二乘方法。如果考虑到(),那么也会得到相同的结论。
备注3、如果我们使用SCAD惩罚最小二乘法,那么将会极大的提高线性参数的收敛速度。事实上结果(3.6)表明的收敛速度比使用一步方法得到的收敛速度快很多(见备注2)。值得指出的是,将改写为并不是一个小改动,因为在实际情况中,总是远小于的(例如在接下来第五节的实例分析中,的大小几乎是的16倍)。
备注4、如果我们使用SCAD惩罚最小二乘法,我们假设,两阶段程序执行时的变量数量满足条:
而一般的一步方法需要更强的假设:。再次强调,这并不是一个小的改动,因为在实践中,收集、存储数据的技术进步提供了曲线数
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[26564],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。