GPCRTree: GPCR功能的在线分级分类外文翻译资料

 2023-04-12 18:37:36

英语原文共 5 页,剩余内容已隐藏,支付完成后下载完整资料


BMC研究报告

技术报告

GPCRTree: GPCR功能的在线分级分类

Matthew N Davies, Andrew Secker2, Mark Halling-Brown3, David S Moss3, Alex A Freitas2, Jon Timmis4, Edward Clark4 and Darren R Flower1

地址:1牛津大学詹纳研究所,康普顿,纽伯里,伯克郡RG20 7NN,英国;2肯特大学计算与生物医学信息学中心,肯特郡坎特伯雷,CT2 7NF,英国;3伦敦大学伯克贝克学院,伦敦马雷街,WC1E 7HX,英国约克大学计算机科学与电子系,海斯灵顿,约克,YO10 5DD,英国

电子邮件: Matthew N Davies* - m.davies@mail.cryst.bbk.ac.uk; Andrew Secker - andysecker@gmail.com; Mark Halling-Brown - m.hallingbrown@mail.cryst.bbk.ac.uk; David S Moss - d.moss@mail.cryst.bbk.ac.uk; Alex A Freitas - A.A.Freitas@kent.ac.uk;

Jon Timmis - jt517@ohm.york.ac.uk; Edward Clark - edclark@cs.york.ac.uk; Darren R Flower - darren.flower@jenner.ac.uk

*通讯作者

收稿日期:2008年8月8日接受日期:2008年8月21日

出版日期:2008年8月21日

BMC研究笔记2008,1:67 doi:10.1186/1756-0500-1-67

本文可从http://www.biomedcentral.com/1756-0500/1/67获取

copy;2008 Davies等人;被许可方生物医药中心有限公司

这是一篇根据知识共享署名许可协议(http://creativecommons.org/licenses/by/2.0)发布的开放获取文章,该协议允许在任何媒体上不受限制地使用、发布和复制,前提是正确引用了原始作品。

摘要:

背景:G蛋白偶联受体(GPCRs)在将细胞外信号转导到细胞内反应中起着重要的生理作用。大约50%的上市药物以GPCR为靶点。从GPCR的初级序列有效地预测其功能仍然是一个值得关注的问题。

研究结果:利用来自数据挖掘和蛋白质化学计量学的技术,设计了一种免对比的GPCR分类方法。它使用蛋白质物理特性的简单表示。GPCRTree是一个公开的互联网服务器,它实现了一种算法,可以在类、子族和子亚族级别对GPCRs进行分类。

结论:建立了一个选择性自顶向下的分类器,可以在GPCR层次内分配序列。与其他公开的GPCR预测服务器相比,GPCRTree在每个级别的分类上都要准确得多。该服务器于2008年3月上线,网址为http://igrid-ext.cryst.bbk.ac.uk/gpcrtree/

背景

G蛋白偶联受体(G protein-coupled receptor, GPCR)包括一系列调节多种重要生理功能的整膜蛋白[1-3]。配体与细胞表面的GPCR结合可以启动细胞信号传导。一组极不均匀的分子充当GPCR配体。GPCRs是治疗药物的常见靶点,约50%的上市药物以GPCRs为靶点[4,5]。尽管GPCRs的功能和序列多样性,但其具有一些共同的结构特征,但其三维结构的保守性远高于一级序列[6]。这使得针对GPCR亚型建立一个基于序列[7]的综合分类体系变得困难。

最常用的分类系统是在GPCRDB数据库[8]中实现的,它将GPCRs分为6类(A类:类视紫红质,超过80%的GPCRs存在于人类;乙级:类分泌素;C类:代谢性谷氨酸受体;D类:信息素受体;E类:cAMP受体;还有规模小得多的F级:卷曲/光滑的家庭)。A、B、C和F类蛋白存在于哺乳动物中,D类蛋白仅存在于真菌中,E类蛋白仅存在于网柄菌属中。这6类根据GPCR的功能及其特定配体进一步分为多个了亚类和sub-sub-division。

第1页共5页

BMC研究笔记2008,1:67

以前尝试对GPCR进行分类包括基于motif分类工具[9,10]和机器学习方法,如隐马尔可夫模型[11,12]和支持向量机(svm)[13]。目前已有几种公开可用的基于svm的GPCR分类器:PRED-GPCR[14,15]、GPCR- pred[16]和GPCRsclass[17]。一些预测技术结合使用SVMs和HMMs[18]。其他用于GPCR分类的方法包括自组织地图[19]、准预测特征分类器[20]和决策树[21]。GPCRTree是一种新的公共服务器,其思想是在GPCR类树的每个节点上(从一组候选分类器中)选择最佳分类器。

发现

算法

使用之前构建的综合GPCR序列数据集训练和测试分类器[22]。去除280个氨基酸以下的蛋白质,消除了不完整的蛋白质序列。为了避免冗余,删除了所有相同的序列,同时删除了少于10个示例的类。用于训练服务器的数据集包含8222个蛋白序列,分成了5类(A-E),亚科级38类,Sub-Subfamily87类。由于F类包含的序列太少,无法建立准确的分类模型,因此没有考虑F类。该系统使用基于氨基酸物理性质的对齐独立系统。蛋白质化学计量学采用主成分分析法,从26个真实理化性质推导出5 'z值(z1-z5)' [23,24]。对序列中的每个氨基酸计算这5个值,并用于生成[17]中描述的15个属性值,给出蛋白质的纯数值描述。

GPCRTree服务器在GPCR Class、亚科和Sub-sub family级别进行分类。序列的分层分类采用选择性自顶向下的方法,GPCR类树中的每一组兄弟节点都成为一个平面分类问题,使用标准分类器解决[25,26],无需设计新的分类器。完整的数据集训练根分类器,只有数据的相关子集用于在亚族和亚亚族级别上训练分类器。当一个未分类的序列呈现给算法时,根级分类器将其分配给一个类,然后将该类向下传递给下一级的合适的分类器,直到它被分配给一个亚科和一个sub-subfamily [27]。在类树的每个节点上使用的不是单一的分类算法,而是许多

http://www.biomedcentral.com/1756-0500/1/67

分类器使用训练集的子集(称为子训练集)进行训练,然后使用训练集的另一部分(称为验证集)进行测试。为该节点选择验证集中分类精度最高的分类器。在GPCR树的每个节点使用8种标准分类算法作为候选分类器。所有代码均使用开源WEKA数据挖掘包[28,29]编写,每个算法使用默认参数。

测试

GPCRTree服务器已经在其他三个预测GPCR服务器[22]上进行了验证。使用完整的GPCRTree数据集训练GPCRTree服务器,然后使用每个GPCR服务器数据集作为测试数据进行测试。GPCRTree在Class水平上的准确率为97%,在亚科水平上的准确率为84%,在 Sub-Subfamily水平上的准确率为75%。这在Class水平上超过了PRED-GPCR服务器,在亚科水平上可与之媲美。它在层次结构的所有级别上都超过了GPCRPred服务器。GPCRsclass服务器是在特定(亚科)级别上最成功的分类器;这可能是因为分类器过于专门,只适用于A类胺亚科水平。在适用于所有GPCR类的服务器中,GPCRTree是目前可用的最准确的GPCR预测服务器。

实现

GPCRTree可以通过一个web界面获得——http://igrid-ext.cryst.bbk.ac.uk/gpcrtree/。它是用PHP、dHTML和java客户端实现的。PHP接口提供了一种简单而直接的方法来提交用于评估的蛋白质序列。如之前所说,选择性自顶向下方法的代码需要进行一些更改,以方便有效地集成到服务器环境中。对训练进行修改,使所有属于具有10个或更多实例(蛋白序列)的一类的GPCR蛋白都被使用。然后,算法暂停并等待输入,这些输入将作为一个辅助程序与选择性自顶向下分类器建立TCP套接字连接。连接后,辅助程序将待分类的蛋白序列发送出去,然后暂停。分类器将进行预测,然后返回结果。使用TCP连接有几个原因。它可以允许多个用户访问分类器。单独的用户可以运行单独的辅助程序,因此分类器可以对这些请求进行排队,以确保在任何给定的时间只有一个请求会调用分类器。其余的将按照提交的顺序排队和服务。此外,这种架构促进了可移植性。出于资源或安全原因,可能需要在不同的硬件上运行分类器。在这种情况下,服务器可以调用辅助程序,该辅助程序可以通过网络连接到运行分类器的独立机器。

第2页

BMC研究笔记2008,1:67

用户以普通或fasta格式输入一个蛋白质序列并提交作业(图1)。然后接口向java客户端发送一个AJAX调用。GPCRTree java客户端将序列提交给GPCRTree服务器,在那里它们被分类,分类返回给java客户端,后者将结果传递给接口。然后在提交按钮下面显示序列和分类(图2)。

如果序列中包含非标准残基,则进行替换:含有B(天冬酰胺或天冬氨酸)的序列被指定为天冬酰胺N;一个Z(谷氨酰胺或谷氨酸)被称为谷氨酰胺Q;而一个“U”(硒半胱氨酸)被指定为半胱氨酸“C”。所有未知残基X被指定为丙氨酸A。

http://www.biomedcentral.com/1756-0500/1/67

关的蛋白质序列表示,并且首次使用针对GPCR功能分类树中每一组兄弟节点专门选择的分类器对序列进行分类。通过在每个GPCR类树节点上(从候选分类器集合中)选择最佳分类器,自顶向下选择方法有效地利用了不同分类器有不同的偏好,更适合于不同的分类问题的事实。GPCRTree是目前最准确的公开可用的GPCR序列分类预测服务器,它采用了一个简单而稳健的接口,可以同时进行多个分类。

可用性与要求

项目名称:GPCRTree

结论

由于GPCR超家族的序列多样性和各家族亚群的分布不均匀,GPCR的分类是生物信息学中最具挑战性的问题之一。GPCRTree是第一个服务器实现了一种与对齐无

操作系统:平台无关

图1 GPCRTree服务器的输入页面。

第3页

http://www.biomedcentral.com/1756-0500/1/67

BMC研究笔记2008,1:67

图2

GPCRTree服务器的结果页面显示了对趋化因子CCR4受体序列的预测。

编程语言:PHP、dHTML、Java其他要求:无

许可:没有

对非学术人士使用的任何限制:无

缩写

GPCR: G蛋白偶联受体;TCP:传输控制协议;WEKA:怀卡托知识分析环境;支持向量机

相互竞争的利益

作者声明他们没有利益冲突。

作者的贡献

建立GPCRtree数据集,建立蛋白质序列的免对比表示,撰写论文。设计并实现了选择自顶向下分级方法。将原蛋白序列转换为数值属性的实现方法。协助完成论文的编写和代码在GPCRTree web服务器上的实现。MHB构建并实现GPCRTree服务器,目前维护服务器在伦敦大学伯克贝克学院DM监督构建GPCRTree服务器在伯克贝克学院AF监督设计选择性自顶向下的分级分类方法。JT监督了分层分类数据挖掘算法的数学分析EC进行了分层分类数据挖掘算法的数学分析指导设计和构建GPCRtree数据集,开发pro- crtree表示

第4页

BMC研究笔记2008,1:67

并参与了论文的撰写。所有作者阅读并批准了论文。

致谢语

作者要感谢ESPRC EP/D501377/1和欧盟免疫网格项目FP6- 2004-IST-4的资助(合同编号为。028069)。

参考文献

1. Christopoulos A, Kenakin T: G protein-coupled receptor allosterism and complexing. Pharmacol Rev 2002, 54:323-374.

2. Geth

剩余内容已隐藏,支付完成后下载完整资料


资料编号:[589743],资料为PDF文档或Word文档,PDF文档可免费转换为Word

您需要先支付 30元 才能查看全部内容!立即支付

课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。