英语原文共 17 页,剩余内容已隐藏,支付完成后下载完整资料
基于非线性核的统计模式分析
IEEE会员1Alberto Ruiz.2 和Pedro E.Loacute;pez-de-Teruel
1计算机科学系,西班牙穆尔西亚大学
邮箱:aruiz@um.es
2参与西班牙穆尔西亚大学工程与技术部门的合作,邮箱:pedroe@ditec.um.es
摘要:多元随机数的二阶统计量的特征结构可以从样本内积的成对组合矩阵中推导出来。因此,它也可以在由核函数定义的隐式高维特征空间中有效地获得。我们在此文详细说明了这个性质,并获得了一些通用表达式,用于导出许多标准模式分析算法的非线性对应项,包括主成分分析,数据压缩和去噪以及Fisher判别式。还说明了核方法与非参数密度估计之间的关系。使用这些结论,我们介绍了马哈拉诺比斯距离的核函数,它引发了具有意想不到的有趣属性的非参数模型,并且还提出了最小平方误差(MSE)线性判别函数的内核版本。这种学习机器特别简单,并且包括许多广义线性模型,例如潜在的函数方法或径向基函数(RBF)网络。 我们的研究结果揭示了支持向量机(SVM)的显着泛化特性中特征空间和感应偏差的相对优点。尽管在大多数情况下,SVM获得最低的错误率,但综合自然数据的详尽实验表明,基于伪逆的简单核心机器在具有明显的类重叠问题上具有很强的竞争力。
关键词:Fisher判别分析,核扩张,马哈拉诺比斯距离,最小平方误差(MSE)估计,非线性特征提取,非参数统计,伪逆,支持向量机(SVM)。
1.介绍
非线性信息处理算法可以在由核函数引发的隐式特征空间中通过线性技术来进行设计。这个想法可以追溯到潜在功能方法[3],[1](也可参见[24][55]),并已成功用于在高、三(甚至无限)维特征空间的一种可控容量的学习方法支持向量机(SVM)[6],[49],[51],[52],[10]。如果域的元素之间的交互仅由内积产生,则可以使用内核方法。这表明可以构建标准模式分析算法的基于内核的非线性对象。最近,基于主成分分析(PCA)的内核版本[27]提出了非线性特征提取方法,[27]提出了Fisher判别分析的非线性核函数版本。在[13],[21],[17]中也提出了其他模式分析算法的基于内核的函数等等。所谓的内核机器领域现在非常活跃[38],[43]。
本文的目的是双重的。首先我们给出一个多变量随机样本二阶统计量结构的简明表达式,这对于最初基于线性依赖关系或高斯模型的经典模式分析算法的核函数的转换很有用。该方法直接推导出上述Fisher判别式的核函数,PCA和用于非线性数据压缩和去噪的相关程序。还考虑了一阶方法(例如,模板匹配的内核版本),并显示一阶方法与标准非参数统计技术(Parzen方法)密切相关。
使用这种技术,我们介绍马哈拉诺比斯距离的核函数,以前没有在文献中提到过,它引发了具有意想不到的有趣属性的非参数模型,并且还提出了最小平方误差(MSE)线性机器的内核版本。这种学习算法特别简单,并包括许多广义线性模型,如潜在函数法或径向基函数(RBF)网络。在这两种情况下,学习的过程都是基于矩阵对角化伪逆(复杂度),所以运行时间基本上取决于训练数据的大小,而不是问题复杂度(例如噪声或类重叠)。
本文的第二个目标是阐明特征空间和感应偏差在SVM显著特性中的相对作用。支持向量机结合了两个强大的思想:低容量的最大边缘分类器,因此具有良好的泛化能力(基于产生稀疏解的二次优化过程)以及由核函数定义的隐式特征空间。我们的实验表明,简单的学习算法可以成功地利用内核扩展来获得非常满意的解决方案,尽管在大多数情况下,最高泛化只能通过SVM的最大边缘策略来实现。然而,在大类重叠的情况下,支持向量机学习比基于样本的基于核心机器的全局统计特性显得更慢并且不准确。
本文组织如下,第二节描述样本自相关(或协方差)矩阵的特征结构与样本内积的矩阵之间的关系。第三节将结果扩展到内核特征空间。在第四节到第五节中,我们使用这个结果来推导出标准模式分析算法的内核版本。为了清楚起见,论述遵循逻辑顺序而不是时间顺序:第四节探讨一阶内核方法和非参数统计之间的联系;第五节介绍马哈拉诺比斯距离的内核版本并描述了它的一些性质。第六节导出了内核PCA和相关的算法;第七节考虑线性机器的核函数并重点关注MSE标准。在第八节中,在所提出的方法上通过实验对比了综合和个别问题以及最先进的SVM的实现。最后一节总结了本文的贡献。
2.和两者之间的基本关系
一个对象在某个域中常用维属性的向量来描述,这被认为是多变量随机变量的实现。当概率密度函数是未知的或其形状被假定为简单的时候,总体的典型特征在于它的一阶和二阶的一阶近似:平均向量和协方差矩阵。它们描述了随机变量的分布和分散程度,是许多模式识别和数据分析算法的必要统计变量。
在实验中,我们可用有限的样本估计这些参数。根据基础定理,定义X为一个含行随机向量的的样本矩阵。则上述统计变量可以用以下矩阵的形式简明地表达:
(样本均值) (1)
(样本自相关矩阵) (2)
(样本协方差矩阵) (3)
其中表示所有分量等于的一维向量,任何秩为的实对称半正定矩阵都可以对角化为。其中是一个只包含的正特征值的对角矩阵(G是非奇异的),P是一组包含了中相关联的特征向量,且它张成了M的非退化子空间的标准正交系统()。是维单位矩阵。我们将用术语“特征结构”或“谱分解”来表示这个分解。协方差矩阵的特征结构揭示了随机变量的一些独立于参照系统的独有的特征度量性质。(例如,主方向和相关方差)。
事实证明,的谱分解和是可以分别从的对称矩阵的样本点积的成对组合中获得:
(4)
由下式定义的中心矩阵
(5)
其中表示的所有分量等于的矩阵,附录中证明了以下定理和推论。
定理:让,,和的的特征结构定义如下
(6)
(7)
(8)
(9)
则以下关系是成立的:
(10)
(11)
(12)
(13)
这种和的基本关系通常应用于小样本情况下的特征结构的有效计算[14,p.39],且对于标准尤其有用[48,p.268]。
具有特征结构的对称方阵的伪逆可通过反演的非零特征值:来计算。同时给出了作为和的真实矩阵的最小平方差近似值(例如:,等等),方阵的伪逆是按照伪逆的对称来计算的,具有性质:以本身作用于上:。
通常,任何矩阵的伪逆都可以通过反演其非零特征值来计算。它通常用于获得过度约束的线性方程组的最小平方误差解。大致来说,伪逆转化限制了对运算符范围的反演,也就是说它不是退化的子空间。这在高维特征空间中是不可避免的,我们将证明伪逆转化提供了有趣算法的合理的近似方法。
推论1:以下等式是有效的
(14)
(15)
因此在目标矢量上的和的结果可以在整体样本的线性范围内运算的某些相关操作中获得。通过内部元素的内积,用表示的扩张。
(16)
例如,在样本空间内部的对称形式是由此可得:
该性质对隐式高维数据集中的运算十分重要,如在[39]中对非线性PCA提出了由核函数定义的特征空间形式,而上述关系是推论2的特例。
推论2:设是任意的对称矩阵,对任意向量和以及任意整数幂,则下面的等式都是有效的
(17)
对正数幂而言,此公式不重要,但对于具有伪逆意义的负数幂是十分适用的。对合适的和,公式(17)为构建标准算法的非线性版本提供了一个概念上的精确的方法。注意,当涉及的特征空间非常大或甚至无限大时,左侧包含的是维的矩阵向量积,而右侧所涉及的维度等于样本容量。在实际情况下,我们会发现,有时更可取的方法是使用(15)式的分解,因为的计算需要额外的计算量。
3.扩展到基于内核的特征空间
在一些具有相关转换的隐式特征空间中,核函数的内积公式定义如下,不需要明确计算:
例如,由表示的多项式内核[51]引申出了包含共维属性的特性:
(18)
由表示的高斯核函数或RBF核函数[51]引出无限维度的特征空间,其中的所有图像矢量具有相同的范数,并且在当它们离具有尺度或正则化参数的输入空间很远时就变成正交的了。
(19)
也可以使用其他的内核生成函数,如产生神经网络结构的样条函数或傅里叶扩张,任何验证Mercer条件的函数[52][9],都可以用来生成内核。
由于目标向量之间的相互作用仅以内积的形式出现,所以第二部分的结果在由任何所需的核函数定义的特征空间中也是有效的。要做到这一点,矩阵必须替换为:
(20)
并且的表达式必须替换为
(21)
上述变换也被称为经验核映射[41],在下文中我们将用前一节的结果来写出标准模式分析算法的内核版本。
4.一阶核方法与非参数估计
当属性向量在每个类中正态分布并且属性在相同方差上(即,相同大小的球形类)互相独立时,会出现最简单的模式分类中的一种情况。在这种情况下,最佳分类规则基本上取决于从输入样本到每个类的平均值的距离,让它逐渐减小并与一个足够小的阀值作比较,其具有的相关性[12],[14]。在许多现实情况下,这种简化假设不太准确且需要更多的表达性模型。然而,有趣的是,这些强大方法中的一些方法却与特征空间中的某些最小距离分类器密切相关。
考虑到Parzen方法[32]对非随机样本的概率密度的非参数估计。设为零均值和标准偏差(宽度为)的简单(例如正常)密度。然后可以将未知的密度函数估计可以被估计为中心在可用样本上的平均值:
平滑参数控制了正则化量,实际上(有限的样本)可以通过交互验证来调整[26]。注意,Parzen的估计量可以写成(21)的平均值,其中将平滑密度作为核函数()。
(22)
这揭示了内核方法和非参数统计之间的基本关系。使用(1)可以在特征空间中解释为最小距离分类的关键术语(表示特征空间中样本的平均值)。Parzen估计通过积分计算的原始密度的低通滤波方法的原理,就可以得出以下结果:
(23)
通常情况下,根据内积扩展(用表示),并使用(1)(4)(16)和重新定义(20)和(21),特征空间中的平均距离可写为
(24)
对于从上述从密度函数来派生核函数的方法,我们可得:
常量是可以预先计算的。因此,Parzen密度估计(一种非常灵活的模型)等价于由平滑密度引出的隐式特征空间中平均值对应的简单距离。
Parzen估计中的不同类型的插值函数(例如多项式)是不需要产生合理的密度函数或合理的数据模型的。但的建模质量却成为一个自然问题:在特征空间(24)中,由任意但完全可允许的核所引出的完全距离是由类Parzen类由和的平均值来调整的。
一般来说,这种改变(由内核扩展理论提出,在非参数统计的上下文没有立即解释)事实上产生了一些粗糙和不准确的数据模型,这些数据模型尽管对数据局部接近程度通常没有被正确的测量,但在特定情况下仍然有用(例如具有低复杂度边界的模式分类)。而一阶内核模型的灵活性不足以捕获任意的数据分布,除非使用特定的内核模型(例如,从密度导出,来产生普通的Parzen估计)。因此,在下面的章节中,我们将展示考虑到数据特征空间分布而产生的令人十分满意的模型:二阶核方法,其具有在标准非参数方法中未发现的出乎意料的新颖特性。
在本节结束时,我们简要讨论一下构建内核版本非参数方法的可能性原理:由于在某种意义上它们等同于内核方法(例如,),而实际上它们使用了由平滑函数隐式引发的无限特征集。在核心特征空间中,简单的(一阶或二,如高斯)模型和复数(高阶,半参数或非参数)模型在本质上是等价的。
5.内核马哈纳诺比斯距离()
从向量到具有样本均值向量和样本协方差矩阵的随机样本总体的马氏距离,由二次形式给出
(25)
其中就样本矩阵而言可表示为
(26)
其中具有结构所需的矩阵的平方根。
(27)
使用主要关系(17),我们可以得到
(28)
这里介绍一下下述变量:
(29)
(30)
指数实际上表示平方的伪逆。显然,和它们直接从内积矩阵中获得,它们分别是平均向量和协方差矩阵在投影空间中的倒数。使用上述变量,马哈拉诺比斯距离可以简写为:
(31)
在实际应用中,把马哈拉诺比斯距离作为变换矢量的模,更为有效,通过按照的形式对协方差矩阵进行谱分解[(7),(12),和(13)],然后我们有
(32)
其中
(33)
它在投影空间中起的是白化变换的作用。
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[24247],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。