固定因素分析与集群因素得分约束外文翻译资料

 2022-12-12 16:48:22

英语原文共 10 页,剩余内容已隐藏,支付完成后下载完整资料


固定因素分析与集群因素得分约束

Kohei Uno , Hironori Satomura, Kohei Adachi

Graduate School of Human Sciences, Osaka University, 1-2 Yamadaoka, Suita, Osaka 565-0871, Japan

摘要:

在因子分析(FA)的固定因子模型中,共同因子得分称为固定参数。但是,因为该模型的最大似然(ML)估计发散到无穷大,它们不能与其他参数联合估计。为了避免发散,使所有参数可以联合估计,本文提出一个约束固定因子模型。在这个模型中,观察值分类成簇,每个簇由等效因子得分表示。提出的模型的ML过程称为固定聚类因子分析(FCFA)。FCFA的迭代算法提供了因子载荷的最大似然估计,唯一方差,聚类观察值的分类和聚类因子分数。该在聚类观察时提取主成分的FCFA方法可以被视为缩减K均值分析(RKM)的因子分析版本。在本文中,我们比较FCFA,RKM和因子K均值分析(FKM)的相关过程。本文还提供真实的数据示例,实例显示FCFA在分类准确性方面优于RKM和FKM。这个结果归因于FCFA的唯一方差。换句话说,允许错误方差对应的变量是唯一的。

  1. 引言

对于个变量的以列为中心的数据矩阵,因子分析(FA)模型可以表示为

(1)

(Mulaik,2010)。 这里,是包含因子得分的矩阵,是列满秩的因子载荷矩阵,的每一行是的随机误差向量 随机误差向量,其中是因子的数量,。当假设的分布时,它被假设为是多元正态分布,其中的零向量作为平均向量:

(2)

在这里,协方差矩阵是一个对角矩阵:

(3)

的对角元素,称为唯一方差。在FA中要估计的参数矩阵是和。另一方面,中的因子得分被认为是随机变量。相反,Lawley(1942)(也参见Young,1941)引入了一个FA模型,其中被认为是一个固定的参数矩阵。这个模型叫做固定因子模型(例如,McDonald,1979;Unkel和Trendafilov,2010)。在本文中,我们专注于固定因子模型。因子得分矩阵的列是中心化的和正交的

(4)

(5)

在固定因子模型中,其中表示那些的向量,是单位矩阵。在模型中要估计的参数矩阵是和。然而,众所周知它们不能被联合估计(Anderson和Rubin,1956),在下一小节中会说明为什么不能被联合估计。在本文中,我们为了联合估计是可行的,限制,其中表示个体的因子得分向量。

我们考虑的约束是中的n个个体被分类为少量的聚类,并且分配给相同聚类的个体具有等效的分数向量。这种约束固定因子模型是建立最大似然(ML)程序的基础,我们称之为固定聚类因子分析(FCFA)。在第2小节中会说明制定 FCFA的方法。我们还解释为什么在FCFA中可以进行联合估计。在第3节和第4节,我们提出FCFA的算法,并使用模拟研究评估所建立的模型。

FCFA对于[1]找到以变量为基础的因子和[2]聚类个体是有用的,因为模型同时实现了这两个目的。使用两种现有程序,De Soete和Carroll(1994)的K均值分析(RKM)和Vichi和Kiers(2001)的因子K均值分析(FKM)可以实现相同的结果。然而,这些分析是基于主成分分析而不是FA。因此,术语因子被成分替代。我们在第5小节中讨论FCFA如何与RKM和FKM相关。RKM和FKM基于最小二乘法,与基于ML的FCFA相反。但是,在公式(3)被限制成与成比例的条件下,我们证明RKM的ML形式可以被认为是FCFA的一个特殊情况。在第6节中,我们可以证明,当连续执行[1]和[2]时,FCFA在聚类的准确性方面优于RKM和FKM。

2.固定聚类因子分析

这一节,我们解释为什么原始固定因子模型中的参数不能被联合估计。然后,我们建立FCFA模型。最后,我们说明在FCFA中是怎样进行联合估计的。利用(1)-(3)式,固定因子模型的对数似然性可以写为:

(6)

表示的第j列,表示的第j行,表示第j个对角元素。但是,在(6)式中不存在最大似然估计(MLE),证明如下。唯一方差的估计必须满足:

(7)

(7)式变为0导致(6)式发散到无穷大,当时,使得(Anderson和Rubin,1956)。例如,除了第j个元素取,可以用0填满,同时,F的第j行为,导致(7)等于零。在所提出的FCFA模型中,被限制使得(6)式可以求最大值以给出和的最大似然估计。限制条件是(即n行)中的个体被分类成个聚类,其中。这个限制条件形式上表示为

(8)

其中,是n个个体times;K聚类子矩阵,如果个体i属于聚类,则,否则:

(9)

其中表示的秩。等于意味着每个聚类至少具有一个个体。另一方面,是矩阵,其中第行表示聚类的得分向量。也就是说,属于聚类的个体的因子得分被限制为等于。 这意味着的每个行向量被限制为个向量中的一个。

令表示中的不同值的数量,例如中的不同值是-1,2,和4,因此= 3。如果大于聚类的数目,则:

(10)

其中,(7)式在FCFA中不能为零。将(8)式代入(7)式得到:

(11)

在这种情况下,包含在中的值被限制为K个不同值,而具有个不同值。这意味着(7)式被限制为(8)式,或者(11)式不能为零。因此,当(10)式成立时,(6)式不发散。我们可以认为通常在包含各种实数值并且存在几个聚类时(10)式是成立的。然而,对于,(11)式可以为零。例如,如果,则,

,,

当s不等于0时,。我们假设(11)在本文的剩余部分。

通过将(9)式代入(1)、(4)、和(5)式,我们分别重写后面的三个方程:

(12)

(13)

(14)

其中,是对角矩阵。 此外,具有(2)式的FCFA模型的(12)式的对数似然由下式给出:

(15)

该式通过将(9)式代入(6)式得到。因此,FCFA被表述为在(9),(13),(14)式的约束条件的基础上通过和,求(15)式的最大值,其中是(3)式中的对角矩阵。应该注意

(16)

其中,(14)式需要,而(9)和(13)式意味着。上式导致不等式, 因此聚类的数目必须大于因子的数目。

3.算法

为了解决FCFA问题,我们提出一种算法,其中,和中的每一个被交替地更新直到达到收敛。由(11)式给出给定和的最优:通过当时,使用(11)式得到来得到唯一方差,当等于(11)式的值,求(15)式的最大值等同于求下式的最小值:

(17)

其中,利用(14)式可以得到和的值。如在下面的段落中所描述的,我们仅当更新和中的每一个时考虑(17)式。的更新公式简单地给出如下:当给定的和,(17)式的最小值为:

(18)

接下来,我们给重新赋值,以便在(9)的条件下,(17)式取和的最小值。将作为矩阵的第i行,将作为C矩阵的第k行,我们将(17)式重写为:

(19)

最小化的结果。这里,未考虑限制条件(13),(14)式和(9)式中的。不能

保证最后的限制条件在FCFA的算法中得到满足:可能会出现其中一些聚类没有的个体的情况。在这种情况下,我们停止执行FCFA,因为FCFA模型不适合数据集。另一方面,(13)式和(14)式最终由聚类得分矩阵满足。对于给定的和,我们需要通过C来求(17)式的最小值。求(17)式的最小值等同于求的最大值,这个公式可以被重写为:和。的线性形式是已知的,以满足不相等条件:

(20)

在(13)式的限制条件下得到(20)式(ten Berge, 1983)。在这里,是利用奇异值分解得到的(SVD),定义为:

(21)

通过,一个对角矩阵得到(21)式。代入得到(20)式中的上限,或者等同为:

(22)

从(21)式中得到,我们在附录A证明C允许满足(13)式。随后代入(17),(18)式将公式重写为:,其中作为样本协方差矩阵。因此,在更新(18)式后,(15)式的对数似然值表示为:

(23)

其中,上式容易达到右侧收敛。这表明(18)式的更新需要在收敛之后。因此,FCFA的算法如下:

[1]初始化和。

[2]用(18)式更新。

[3]如果收敛,则算法结束;否则转到[4]。

[4]用(19)式,和更新。

[5]用(22)式更新。

[6]用(11)式更新并返回到[2]。

在步骤[3]中,当(23)式的右边的值的增加值除以来自前一轮ntrS小于时收敛。 [1]中的初始化是随机执行的。我们随机选择的每一行中的非零元素的位置,从C中得到的元素是在统一分配的,随机抽取的的对角线值是在中统一分配的。为了避免选择局部最大值作为最优解,我们运行算法200次。在所得到的解中,我们选择具有(12)式的最大值的解作为最优解。对于,所得的和具有旋转自由度,如下所示:

(24)

其中,旋转的和也分别是最佳聚类中心和加载矩阵。我们通过从现有的旋转过程中选择合适的一个来获得。

4.模拟研究

为了评估真实参数值的估计程度,我们进行模拟研究。第4.1节中我们给出模拟研究的程序,在4.2节中给出结果报告。

4.1.数据合成和分析

根据FCFA模型(12)式并根据限制条件(9),(10),(13)和(14)式,我们将因子和聚类的数量分别设置为和,以生成200times;12的人工数据矩阵。这些方程中的真实参数和误差矩阵合成如下:

[1]从中随机地选取元素,使每个聚类包含至少10个个体。

[2]C的每个元素从中选择并标准化,使满足(12)式和(13)式,其中

在服从均匀分布。

[3]从中选择Lambda;的每个元素,并规定的对角元素,使得,其中对角矩阵的对角元素是。如果的任何对角线元素小于0.05,则重新生成。

[4]根据(4)式对误差矩阵E的每一行进行抽样。

Average

0.035

0.033

0.035

0.022

Median

0.035

0.033

0.033

0.013

75 Percentiles

0.039

0.039

0.043

0.030

95 Percentiles

0.073

0.047

0.070

0.043

表1

对于得到的500 ,在和设置为真实值后,我们进行FCFA。如(24)式中所示,所得到的和可以被旋转到和。我们将用最佳匹配的Procrustes旋转获得的正交矩阵和它相似的矩阵通过标准正交矩阵T求最小值作为为T的值。通过结果得到了和,我们把它们作为和的简称。我们也使用和作为和的解决方案。

4.2.结果

我们用平均绝对差,定义为:作为真正的载荷矩阵恢复的指标。类似地,,和分别作为真实隶属矩阵,聚类中心矩阵和唯一方差的恢复值的指标。表1显示平均值,中位数,和两个百分位的产生和价值超过500的数据集。例如,AAD的百分之95是0.07,这意味着在百分之95的负荷情况下,有0.07的差异估计。特别的,AAD的平均值为0.04。在第6小节中会说明FCFA分类的准确性。

5.相关程序

在本节中,我们讨论FCFA与缩减K均值分析(RKM)和因子K均值分析(FKM)的关系。后两种方法也可达到与FCFA相同的目的。首先我们显示RKM和FCFA之间的密切关系,然后检验FKM。最后,我们表明FCFA可以避免在RKM和FKM中存在的称为串联聚类的不足。

5.1.缩减K均值分析

RKM可以通过和求最小二乘函数的最小值,所以被认为是主成分分析(PCA)的限制版本。在该方法中,聚类限制(8)式存在于RKM中,并且可以将和代入(9)式和(13)式中得到

(25)

的最小值,并且得到不等式:

(26)

(De Soete和Carroll,1994)。虽然(26)式与FCFA中的(14)式不同,

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[27276],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。