基于希尔伯特独立准则的多变量信息融合鉴定膜蛋白类型外文翻译资料

 2023-04-12 18:37:48

英语原文共 13 页,剩余内容已隐藏,支付完成后下载完整资料


附录A 译文

基于希尔伯特独立准则的多变量信息融合鉴定膜蛋白类型

关键词: 膜蛋白 位置特定评分矩阵 多核学习 多元信息融合 特征提取

摘要

膜蛋白具有多种对生物体生存至关重要的功能,如氧化还原酶、转移酶或水解酶。如果能检测出膜蛋白的类型,就能迅速确定蛋白质的功能。现有的计算方法不仅利用了氨基酸疏水性指数的自相关函数,而且考虑了蛋白质序列的进化保守性信息。本研究采用平均块(AvBlock)、离散小波变换(DWT)、离散余弦变换(DCT)、定向梯度直方图(HOG)和伪PSSM (PsePSSM)等方法从位置特异性得分矩阵(PSSM)中提取演化特征。然后,我们从五个相应的特征集构造五个核。最后,我们提出了一种基于Hilbert Schmidt independent Criterion (HSIC)的多核支持向量机(MKSVM)分类器来整合5个核来识别膜蛋白。在性能评价方面,我们的方法在膜蛋白的四个基准数据集上进行了测试。对比结果表明,我们的预测模型在所有现有的优秀方法中取得了最好的效果。

1.介绍

所有细胞都被膜包裹,膜主要由脂质和蛋白质组成。腔室由膜脂形成通透性屏障。我们称膜的基本蛋白质为膜蛋白,它们嵌入在脂质双分子层中。膜蛋白的不对称性在不同的生物化学功能中起着非常重要的作用。膜蛋白可分为8类:(1)单跨膜1型;(2)单跨膜2型;(3) 单跨膜3型;(4) 单跨膜4型;(5)膜转运蛋白;(6) lipid锚定蛋白;(7) GPI锚定蛋白和(8)周边膜蛋白。确定每一种膜蛋白的种类需要冗长而昂贵的实验。氨基酸序列可以决定膜蛋白是在膜相关的或自由的多核糖体上合成的。因此,膜蛋白的一级序列可能包含与脂质双分子层相互作用类型的信息。许多计算方法已经被开发出来用于蛋白质类型的检测[1-6]。这些方法通常从蛋白质序列中提取特定的特征,并使用不同的机器学习(ML)方法进行膜蛋白类型的分类。

现有的方法大多采用Chou的PseAAC算法,该算法已被广泛应用于鉴别膜蛋白类型和亚细胞定位。其蛋白质分类性能优良。Chou和Elrod[7]首先采用协变判别算法(Covariant Discriminant Algorithm, CDA)和氨基酸组成(Amino Acid Composition, AAC)构建膜蛋白类型预测器。Wang et al.[8]利用Pseudo Amino Acid Composition (PseAAC)从蛋白质序列中提取特征,并将PseAAC特征输入分类器。Cai等[9,10]利用功能域组成和PseACC建立膜蛋白类型预测模型。Liu等人[11]结合低频傅里叶频谱分析和PseACC对蛋白质序列进行特征提取。Hayat和Khan[12]将复合蛋白序列表示(CPSR)整合到PseACC中提取蛋白质序列特征,并利用Split Amino Acid Composition (SAAC)和ensemble classification构建mems - enssaac预测器[13]。他们进一步提出杂交SAAC和位置特异性评分矩阵(Position Specific Scoring Matrix, PSSM) 构造MemHyb模型[14]。Uddin等人[15]提出EvoStruct-Sub,将预测的结构信息与直接从蛋白质序列中提取的进化信息结合起来。Han et al.[16]将氨基酸分类和理化性质整合到Chou的PseAAC的一般形式中,建立了两阶段支持向量机(SVM)模型来预测膜蛋白类型。Wang et al.[17]利用stacking概化方法基于PseAAC预测膜蛋白类型。Chen和Li[18]通过将蛋白质拓扑结构、结构域、信号肽和理化性质整合到Choursquo;s PseAAC的一般形式中,构建了膜蛋白类型预测器(predMPT)。

此外,还有一些方法将蛋白质序列编码成高维特征向量或矩阵,并利用多种模型从高维空间中提取不可或缺的特征。Qiu et al. [19], Nanni et al. [20,21] and Rezaei et al.[22]利用离散小波变换(Discrete Wavelet Transform, DWT)从序列信息矩阵中提取特征。Chou和Shen[23]采用Pseudo - Position-Specific Score Matrix (PsePSSM)和optimization Evidence- theoretical K-Nearest Neighbor (OET-KNN)构建MemType-2L模型。Wang et al.[24]利用二肽合成(Dipeptide Composition, DC)方法将蛋白质序列编码成高维特征向量,并应用邻域保持嵌入(Neighborhood Preserving Embedding, NPE)算法从高维DC空间中提取不可或缺的特征。为了通过计算方法预测膜蛋白的类型,一个主要的计算挑战是找到一种合适的方法来充分描述膜蛋白序列的重要信息。从机器学习的角度来看,膜蛋白类型的预测可以看作是一个传统的多分类问题。因此,最关键的步骤是从蛋白质序列中提取有效特征,并融合多个特征。在这里,我们利用ML算法结合以上信息建立膜蛋白类型的预测模型。

显然,进化保守性信息对膜蛋白类型的预测具有重要作用。蛋白质序列的进化守恒可以用Position-Specific Score Matrix (PSSM)来描述[25-28]。例如,进化过程中的序列守恒或变异是由许多因素决定的,为了保持三维结构和稳定性,减少淀粉样蛋白聚集,也为了发现功能守恒。在此,我们从PSSM中提取进化特征。然后,我们使用平均块(AvBlock)[29]、离散小波变换(DWT)[30,31]、离散余弦变换(DCT)[32]、梯度直方图(HOG)[33]和PsePSSM[23]从PSSM中提取有效特征。利用上述基于pssm的特征构造相应的5个不同的内核。

对于多组信息处理,Ahmad和Dey [34], Parvin等人[35],Hamid等人[36]采用多信息融合来提高聚类算法的性能。Minaeibidgoli et al. [37], Parvin et al. [38], Fatemeh et al.[39]提出了一种融合模型,对多元信息设置相应的权重,优化各信息的比例,提高模型的效率。Parvin等人[40]解决了不平衡数据集上的信息融合问题。由此可见,在多信息环境下,如何将它们组合在一起,表达各自的信息是解决问题的关键因素。本文采用基于Hilbert Schmidt Independence Criterion (HSIC)的多核支持向量机(MKSVM)分类器对5个核进行整合,构建一种新的膜蛋白分类模型。在性能评价方面,我们的方法在4个膜蛋白数据集上进行了测试,对比结果表明,我们的预测模型在所有现有的优秀方法中性能最好。

2.材料和方法

我们采用平均块(AvBlock)、离散余弦变换(DCT)、离散小波变换(DWT)、定向梯度直方图(HOG)和伪PSSM (PsePSSM)对膜蛋白的PSSM进行特征提取。利用这五种基于PSSM的特征构造了五种内核。为了集成以上五种核,我们提出了一种基于Hilbert Schmidt independent Criterion (HSIC)的多核支持向量机(MKSVM)分类器。最后,MKSVM-HSIC可以预测膜蛋白的类型。原理图如图1所示。

2.1数据集

为了评估该方法的性能,我们在数据集1、数据集2、数据集3和数据集4上测试了所提出的模型。四个数据集的详细情况见表1。前三个数据集(Dataset 1、2、3)包含8种膜蛋白类型,后一个数据集(Dataset 4)包含5种膜蛋白类型。

数据集1直接取自Chou的工作[23],其中蛋白质最初从Swiss-Prot[41]检索。然后Chou等人采用百分比分布的方法对训练集和测试集进行随机分配,以保证两个集之间序列的数量是平衡的。训练集和测试集都包含8种膜蛋白类型。

数据集2由Chen和Li[18]通过去除数据集1中的冗余序列收集。他们使用CD-hit[42],得到了非冗余的蛋白序列,没有两个序列的同源性超过40%。

为了更新和扩展数据集的大小,Chen等人构造了一个新的数据集dataset 3[18],其过程如下:他们利用蛋白质亚细胞定位注释,从Swiss- Prot[41]中收集膜蛋白序列。然后,采用以下排除标准:(1)排除长度小于50个氨基酸残基或注释为片段的蛋白质;(2)去除拓扑结构中非实验限定符标注或多个拓扑结构的蛋白质;(3)如果同源序列与数据集中的任意序列具有较高的序列一致性(大于40%),则使用CD-hit去除同源序列。

数据集4取自Chou前期工作[7],其中包含2059(训练集)和2625(测试集)蛋白序列,包含5种膜蛋白。

2.2提取进化保守性信息

蛋白质序列的进化守恒可以用位置特异性得分矩阵(Position-Specific Score Matrix, PSSM)来描述[29,43,44],该矩阵由PSI-BLAST [45] (BLAST [46] options: - num_iterations 3 -db nr -inclusion_ethresh 0.001)生成。来自PSSM的进化信息存储在一个维度矩阵中L times; 20 (L行,20列),表示如下:

式中omega;(i, k)为第k个氨基酸类型出现在第i位的频率,D(k, j)为第k个氨基酸类型与第j个氨基酸类型之间的Dayhoff突变矩阵(替换矩阵)值。

2.2.1平均块

平均块(AvBlock)广泛用于蛋白质[47]的矩阵描述符。我们将PSSM矩阵按行划分为20个block,每个block的大小为n = L/20。在这里,我们将每个block变成一个20维特征向量的PSSM矩阵。AvBlock的描述符定义如下:

其中b = 1,2,hellip;, 20。

最后,提取特征向量FPSSMminus;AvBlock 尺寸为20 times; 20 = 400。

2.2.2离散余弦变换

离散余弦变换(DCT)[32]是将信号转换为基频分量的线性可分变换。在图像压缩中得到了广泛的应用。在这里,我们使用二维DCT (2D-DCT)压缩蛋白质的PSSM。二维DCT变换定义如下:

其中0le;i lt; M且0le;j lt; N。

离散余弦变换的一个主要特征是信息密度由均匀分布向不均匀分布的转换。大部分自然信号集中在压缩后的PSSM的低频部分,分布在左上角。PSM-DCT的原理图如图所示。

最后,保留前20 times; 20 = 400维,提取特征向量FPSSMminus;DCT。

2.2.3离散小波变换

采用离散小波变换(Discrete Wavelet Transform, DWT)提取蛋白质氨基酸序列的有效信息特征,该方法最早由Nanni et al.[20]提出。小波变换(WT)定义为信号的投影,F (t)上的小波函数,如下:

其中m为尺度变量,n为平移变量。psi;(tminus;nm )表示分析小波函数。T(m, n)是变换系数。假设离散信号f(t)为x[n],其中n为离散信号的长度,则系数计算如下:

其中g为低通滤波器,h为高通滤波器。因此,黄色[n]表示近似系数,Yhigh[n]表示详细系数。

就像之前的一些方法[20]一样,我们使用4级离散小波变换来处理PSSM矩阵。对于每一层,我们得到每一列的近似和详细系数。然后提取近似系数和详细系数的最大值、最小值、均值和标准差,以及近似系数的前5个离散余弦系数。总的来说,对于20个列维度中的一个,每个级别有4 4 5个特征。

最后,提取(4 4 5)times; 4 times; 20 = 1040维的特征向量FPSSMminus;DW T。

2.2.4方向梯度直方图

面向梯度直方图(Histogram of Oriented Gradient, HOG)是计算机视觉中用于行人检测的一种特征描述符。这里将PSSM视为一个可以通过HOG的特殊的图像矩阵。首先,根据PSSM的水平和垂直梯度值计算梯度幅度矩阵和梯度方向矩阵;其次,将梯度大小矩阵和梯度方向矩阵分别划分为25个子矩阵;每个子矩阵包括梯度大小和方向。然后,根据梯度方向创建10个不同的直方图通道。每个子矩阵由10个直方图通道生成。

最后,提取25 times; 10 = 250维的特征向量FPSSMminus;HOG。

2.2.5 PsePSSM

伪pssm (pseudo - PsePSSM)是[23]蛋白中应用最广泛的基质描述符之一。该描述子通过考虑伪氨基酸组成来保留PSSM的信息。伪pssm描述符的定义如下:

其中lag表示一个残差与其相邻残差之间的距离,而Prsquo;i, j 是P的标准化定义如下:

最后,提取20 times; 30 20 = 620维的特征向量FPsePSSM。

2.3多核支持向量机分类器

在五种相关的基于PSSM的特征提取的基础上,我们分别采用径向基函数(RBF)和五种类型的特征构造相应的核。

RBF内核定义如下:

其中Xi和Xj是样本i和j的特征向量,N是样本的个数。gamma;是高斯核的带宽。

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589742],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。