英语原文共 12 页,剩余内容已隐藏,支付完成后下载完整资料
概率主成分分析
Michael E. Tipping and Christopher M. Bishop
Microsoft Research, Cambridge, UK
摘要:主成分分析(PCA)是用于分析和处理数据的普遍存在的技术,但是它是不基于概率的模型。在本文中,我们将显示如何可以通过与因子分析密切相关的潜变量模型的参数的最大似然估计来确定一组观测数据矢量的主轴。我们考虑相关似然函数的性质,给出用于迭代地估计主子空间的EM算法,并且利用说明性的例子来讨论用主成分分析的概率方法表达的优点。
????
关键词:主成分分析; 概率模型; 密度估计;最大似然; EM算法; 高斯混合。
- 引言
主成分分析(PCA)(Jolliffe 1986)是用于降维的成熟的技术,并且关于该主题的章节可以在关于多元分析的许多文本中找到。其许多应用包括数据压缩,图像处理,可视化,探索性数据分析,模式识别和时间序列预测。
主成分分析最常见的推导是根据使投影空间的方差最大化来标准化线性投影(Hotelling 1933)。对于一组观察到的维数据向量,主轴是投影下保留方差最大的正交轴。可以表明,向量由样本协方差矩的个主要特征向量(即具有最大相关特征值的那些)给出,其中是数据样本均值,使得。观测矢量的q个主分量由矢量给出,其中 。由于变量是未知的,但是我们可以看出协方差矩阵是具有元素的对角阵。
主成分分析的补充性质,并且与Pearson(1901)的最初讨论最密切相关的是,在所有正交线性投影中,主分量投影使平方重构误差 最小化,其中的最优线性由重构。
然而,主成分分析的这些定义(以及许多文章中所提到的)的显着特征是对于观察到的数据缺少相关联的概率模型。因此,本文的目的是通过证明主成分分析确实可以在密度估计框架内导出来解决这个限制。
我们从与统计因子分析密切相关的高斯潜变量模型获得主成分分析的概率公式。这个模型在第二节中概述,我们在文献中讨论我们的方法的现有优先级。在我们提出的框架下,主轴显现为最大似然参数估计,其可以通过样本协方差矩阵的通常特征分解来计算,并随后并入模型中,在第三节中详述。或者,潜变量公式是自然产生主成分分析的迭代和计算高效的期望最大化(EM)算法。
这样的概率公式从直观上是吸引人的,因为似然度量的定义使得能够与其他概率技术进行比较,同时使统计测试更容易并允许应用贝叶斯方法。然而,进一步的动机是概率主成分分析传达另外的实际优点:
(a) 概率模型提供了扩展常规主成分分析范围的潜力。例如,我们在第四节中说明了多个主成分分析模型如何可以有效地组合为概率混合,以及当一些数据值丢失时如何获得主成分分析投影。
(b) 除了应用于降维之外,概率主成分分析可以用作一般的高斯密度模型。 这样做的好处是可以从数据主成分有效地计算与协方差矩阵相关联的参数的最大似然估计。可能的应用包括分类和新颖性检测,我们再次在第四节中给出一个例子。
我们最后在第五节讨论,而关于主要结果的数学细节留给附录A和B。
2. 潜变量模型,因子分析和主成分分析
2.1 因子分析
潜变量模型试图将d维观测矢量t与潜在(或不可观测)变量x的相应q维矢量相关联。也许最常见的这种模型是因子分析(Bartholomew 1987; Basilevsky 1994),其中关系是线性的: (1)
矩阵W涉及两组变量,而参数矢量允许模型具有非零均值。用,原因是潜在变量对观察对象之间的相依性提供更简洁的解释。通常,,这些潜变量定义为是具有独立的具有单位方差和高斯分布。通过另外指定误差或噪声,模型同样是高斯分布的,,方程(1)为观测值引入相应的高斯分布。 因此,可以通过最大似然法来确定模型参数,显然因为W和没有闭合形式的解析解,所以它们的值必须通过迭代过程获得。
因子分析模型的动机和确定的关键假设是,通过将误差协方差约束成对角矩阵,其元素通常从数据中估计,给定潜在变量x的值,观察的变量是条件独立的。因此,对于特地,当代表唯一的可变变量时,这些潜在变量旨在解释观测变量之间的相关性。这是因子分析与标准主成分分析基本不同的地方,主成分分析同样有效的处理协方差和方差。
2.2 因子分析与主成分分析的联系
由于在标准因子分析模型中方差和协方差之间的区别,由W的列的最大似然估计所定义的子空间通常不对应于观察数据的主要子空间。然而,这两种方法之间的某些联系已经被建立,并且这种联系集中在各向同性误差模型的特殊情况,其中残差方差被限制为相等即。
这种方法在早期Young - Whittle因子分析模型(Young 1940; Whittle 1952)中采用,其中,假定残差是已知的(即模型似然仅是W的函数)。在这种情况下,最大似然法等价于最小二乘法准则,一个主要组成成分的解决方案以直接的方式出现。
Young和Whittle采用的方法不同于常规采用的方法,因为因子x被认为是估计的参数而不是随机变量。然而,约定样本协方差S的个最小特征值等于时,x的随机处理恢复了类似的结果。在这种情况下,很容易显示观测协方差模型可以是精确的(假设q的选择正确),然后W和都可以通过S的特征分解来分析地确定,而不求助于迭代(Anderson 1963; Basilevsky 1994,pp.361-363)。
然而,或者是已知的或者数据的二阶统计的模型是精确的,这样的假设都是具有限制性的(并且在实践中很少证明是正确的),实际上,在存在额外观测噪声的情况下,一个精确的协方差模型通常是不可取的。这在主成分分析的实际应用中尤其如此,在主成分分析的实际应用中,我们经常不需要在次要子空间中的协方差结构里的精确表征,因此在维数降低过程中这些信息将被有效地“丢弃”。
因此,在本文的剩余部分我们专注于最感兴趣的情况,在现实的情况下,考虑W和的最大似然估计量的性质,所提出的模型的协方差不等于其样本中的对应量,并且其中必须从数据中估计(并因此进入似然函数)。在Lawley(1953)和Anderson和Rubin(1956)的早期因子分析文献中,这种情况确实已经被研究,并且与主成分分析有关,尽管这项工作没有广为人知。这些作者表明,W是一个矩阵,当似然函数的稳定点发生时,其列是缩放的样本协方差矩阵S的特征向量,并且是丢弃维度中的平均方差(我们很快给出详细内容)。然而,这些推导不能表明主特征向量代表全局最大似然。
在下一节中,我们重新建立了主成分分析和因子分析之间的联系,同时扩展早期的推导以显示(在附录A中)用于各向同性误差模型的最大似然估计量和确实对应于主成分分析。为了我们选择术语“概率主成分分析”(PPCA),是为了给出似然函数性质的完整刻画。此外,我们给出一个迭代EM算法,用潜在的计算优势来估计感兴趣的参数。最后,为了给出这项工作的动机并强调如何在实践中有利地利用概率模型的定义,我们在第四节中提供了概率主成分分析的实际应用的一些例子。
3. 概率主成分分析
3.1 概率模型
结合方程(1),对于,各向同性高斯噪声模型的使用意味着t空间上的x条件概率分布由下式给出
. (2)
随着潜在变量的边际分布也是高斯分布的,并且通常为,观测数据t的边际分布容易通过积分潜在变量而获得,并且同样是高斯分布:
, (3)
其中观测协方差模型由指定的。然后相应的对数似然是
, (4)
其中
. (5)
的最大似然估计量由数据的平均值给出,在这种情况下,S是观测值的样本协方差矩阵。W和的估计可以通过迭代最大化L来获得,例如使用在附录B中给出的EM算法,这是基于Rubin和Thayer(1982)的标准因子分析算法。然而,与因子分析相反,我们可以明确地并且很快就可以获得W和的M最大似然估计。
稍后,我们将利用给定观察到的t的潜变量x的条件分布,其可以使用贝叶斯规则以及又一次使用高斯分布计算:
, (6)
其中我们定义,注意M的维数是,C的维数是。
3.2 最大似然估计的性质
附录A中显示,由给出的C,当以下情况时似然函数(4)是最大的:
, (7)
其中,维的对角矩阵具有对应的特征值;矩阵的个列向量是S的主特征向量, 并且R是任意的的正交旋转矩阵。特征向量的其他组合(即非主要向量)对应于似然函数的鞍点。因此,从等式(7)可知,由等式(1)定义的潜变量模型影响从潜在空间到观察数据的主要子空间的映射。
还可以看出,对于,的最大似然估计由下式给出
, (8)
作为方差“丢失”的投影它有一个明确的解释,即平均的损失维度。
在实践中,为了找到给定S的最可能的模型,我们首先从等式(8)估计,然后从等式(7)估计,其中为了简单起见,我们将有效地忽略R(即选择R=I)。 或者,我们可以使用附录B中详述的EM算法,其中收敛时的R可以被认为是任意的。
3.3 重新进行因子分析
虽然上述估计量是通过对标准因子分析模型应用一个简单的约束而产生的,但我们注意到,从各向同性噪声协方差的使用而产生的一个重要区别在于,如标准主成分分析那样,概率主成分分析在原始数据轴的旋转下是协变的,而因子分析在分量变化下是协变的。另一个对比是,在因子分析中,双因素模型发现的因素与单因素模型发现的因素都不一定一样。在概率主成分分析中,我们看到上面的主轴可能会逐步找到。
3.4 降维
主成分分析的一般动机是将数据转换成一些降维表示,并且通过对的一些小代数操作,如果需要,我们确实可以获得在主轴上的标准投影。然而,从概率的角度来考虑,在观察的条件下,根据潜在变量的分布考虑降维过程是更自然的。从等式(6),该分布可以通过其平均值方便地概括为:
(9)
(注意,同样从等式(6),相应的条件协方差由给出,因此独立于n。)可以看出,当和等式(9)表示在潜在空间上的正交投影,因此标准主成分分析被恢复了。然而,因此密度模型变成了奇异的,从而并未定义。实际上,由等式(8)确定的,由于x的高斯边缘分布,潜在的投影变得偏向原点。因此,重建的并不是的正交投影,因此不是最优的(在平方重建误差意义上)。然而,在,并且给出的情况下,观察数据的最优重构仍然可以从条件潜在均值中获得。
- 案例
在这里,我们给出如何在实践中利用概率主成分分析的三个例子。我们首先考虑具有缺失值的数据集的可视化,然后将该单个投影模型扩展到混合情况,最后给出了一个示例,在概率主成分分析中,隐式的协方差参数化如何提供用于限制高斯模型中的自由度数量的有效机制。
4.1 缺失数据
概率主成分分析,在一些或者所有数据向量表现出一个或多个丢失(随机)值的情况下提供
剩余内容已隐藏,支付完成后下载完整资料
资料编号:[25402],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。