利用分子动力学模拟揭示大麦WRKY结构域-DNA相互作用之间的结构差异
Bharati Pandey Abhinav Grover Pradeep Sharma
摘要:
1 背景:WRKY转录因子是一类DNA结合蛋白,参与多种植物生理过程,在植物响应非生物和生物胁迫时发挥关键作用。大麦中WRKY基因家族的全基因组差异性分析为研究其分子进化和功能提供了框架,但到目前为止,尚无大麦中WRKY转录因子的晶体结构的报道。此外,了解WRKY结构域的三维结构是探索蛋白质-DNA识别机制的先决条件。用AtWRKY1作为模板,利用同源性建模的方法生成WRKY的DNA结合域(DBD)及其突变体的结构。最后,通过原子分子动力学(MD)模拟,在100 ns的时间段内分析未绑定和绑定形式的生成模型的稳定性和构象变化。
2 结果:在此研究中,我们使用了分子对接和动力学(MD)模拟实验,分析了WRKY及其突变体的结构域与W-box顺式调控元件的结合模式。通过对WRKY结构域的原子洞察,我们发现其分子间氢键模式发生显著变化,导致变异类型的结构异常和DNA特异性结合方式的差异。根据MD分析、残基贡献和相互作用等值线,我们发现野生型WRKY(HvWRKY46)在MD前后模拟的复合物中能够通过高度保守的七肽与DNA相互作用,而在突变体(Ⅰ和Ⅱ)中则没有七肽与DNA的相互作用。此外,通过主成分分析,我们还发现野生型WRKY通过掩盖减少的构象空间比突变体Ⅰ(HvWRKY34)更稳定。最后,野生型和变体Ⅱ的高结合自由能使其WRKY-DNA复合物相对于突变体Ⅰ更稳定。
3 总结:我们的研究结果揭示了有关WRKY结构域与DNA相互作用的完整动态和结构信息。但是,迄今为止,尚无关于WRKY突变体及其与DNA相互作用机制的结构基础的报道。我们的发现强调了选择序列的重要性,对提高转基因作物对胁迫的耐受性有重要意义。
关键词:WRKY,分子模型,分子动力学,HADDOCK,大麦
1 背景
大麦(Hordeum vulgare L.)是世界上最早驯化和最重要的谷类作物之一。大麦是二倍体,具有5.1 Gb的大型基因组[1]。大麦的生长、发育和产量受不利条件(如干旱胁迫、盐胁迫和极端温度)的限制[2]。研究证明植物中有多个转录因子家族参与这些不利条件的防御[3],WRKY家族就是其中之一,它可以通过调节基因表达参与植物对生物和非生物胁迫的防御[4]。在甘薯中鉴定出第一个WRKY基因(SPF1)[4],此后在各种植物中也鉴定出WRKY基因[5-13]。
WRKY基因家族是植物界中最大的且被广泛研究的基因家族之一。WRKY转录因子具有高度保守的DNA结合结构域(DBD)和独特的C2H2锌指结构[14]。WRKY转录因子的核心序列和DNA结合序列是WRKYGQK,在作物中经常发生变异。在水稻中,WRKY家族成员在WRKY结构域上的变异就有的19个突变体,其中WRKYGEK和WRKYGKK是分别由七个和五个结构域组成的两个常见突变类型[5]。Okay等还发现了小麦[13]中的13种不同WRKY结构域(WRKYGQK,WRKYGEK,WRKYGQE,WLKYGKK,LRKYGPK,WRNYGQN,WRKYGQK,WRKDHQK,WSKYGQK,WTKYGQK,WRKYGEK和WMKYGQK)。同样在大麦中,也存在其他形式的WRKY结构域,如WRKYGKK(HvWRKY18,HvWRKY19和HvWRKY20),WRKYGQN(HvWRKY33,HvWRKY34和HvWRKY36)和WRKYGQM(HvWRKY24)[15]。根据WRKY结构域的数量和锌指结构的类型,可以将WRKY转录因子分为三类,Ⅰ类具有两个WRKY结构域,Ⅱ和Ⅲ类具有单个WRKY结构域[7]。WRKY转录因子与下游基因启动子区域的W-box(TTGACT/C)结合并调节基因表达。WRKY转录因子通过调节基因表达参与病原体防御、植物生长发育、衰老、生物合成和激素调节、抵抗干旱、寒冷和高盐[5,8-11]。在生理过程中,通过蛋白激酶(MAPK)的磷酸化来调控WRKY基因的表达。水稻中WRKY74可以调节水稻的Pi稳态、铁饥饿和冷胁迫的抵抗[12]。拟南芥(Arabidopis thaliana)中WRKY71通过激活RAX基因来调节枝条的分支,另一方面通过调节FLOWERING LOCUST和LEAFY基因来促进开花[13]。拟南芥中WRKY46调节侧根的生长,并通过调节ABA信号途径和植物生长素稳态来实现对盐胁迫的抵抗[16]。
蛋白质-DNA相互作用在研究基因组信息的生物学意义上起着重要作用。由于蛋白质对特定DNA序列的识别非常复杂,因此很难通过实验方法了解这些蛋白质如何与DNA相互作用。因此,需要使用具有成本效益的计算技术,例如分子动力学(MD)模拟和分子对接,以加快信息恢复的过程并缩小实验方案的搜索空间。使用NMR方法(2LEX和2LEX)来分析拟南芥AtWRKY1的WRKY结构域和W-box的复杂晶体结构[17]。最近在拟南芥中,通过10 ns分子动力学和体外实验研究了不同AtWRKY蛋白质-DNA结合的特异性变化[18]。但是,在大麦中尚无此类DNA识别机制的结构框架的研究。
在本研究中,我们构建了具有同源性的WRKY转录因子模型,对大麦WRKY及其突变体进行MD模拟,以了解WRKY转录因子的分子机制以及这些转录因子的DNA结合区如何与DNA相互作用。这项研究的结果可以为大麦WRKY基因的应激反应研究提供一个平台。
2 方法
2.1 序列分析
根据现有文献,选择大麦中最常见的WRKY DNA结合域(DBD)突变体,从UniProt数据库(www.uniprot.org)中挑选了具有Q6VWJ6,B2KJ76,B2KJ62的HvWRKY46(野生型WRKY),HvWRKY34(突变体Ⅰ;Q17E)和HvWRKY19(变体Ⅱ;Q17K),选取其中的一段具有66个氨基酸的序列,这段序列是高度注释且非冗余的蛋白质序列。
2.2 蛋白质和DNA结构模型的生成
所有WRKY突变体均与PSI-BLAST(https://blast.ncbi.nlm.nih.gov/ Blast.cgi)中的模板具有高于40%的同一性,采用同源性建模方法构建三维蛋白质结构。使用SWISS模型服务器(https://swissmodel.expasy.org/)为WRKY DBD构建同源模型。WRKY DBD通过结合5-TTGACC-3DNA序列(W-box)来参与信号转导。从PDB ID:2LEX(AtWRKY4的C端WRKY结构域和W-box的复合体)中检索W-box的三维B型,使用结构分析和验证服务器版本4(SAVES)验证生成的蛋白质模型的可靠性[19]。该服务器集成了来自多个广泛使用的验证算法(例如PROCHECK,ERRAT)的分析,并考虑了几何参数和拓扑,以验证模型结构与实验数据之间的拟合优度。
2.3 蛋白质-DNA复合物的对接方案
为了研究WRKY DBD-DNA的相互作用,使用HADDOCK(高歧义度驱动的蛋白质-蛋白质对接)网络服务器(2.2版)将WRKY DBD对接到DNA的特定位点(W-box)[20,21]。指定12至18个为来自野生型和变异型的WRKY DBD活性残基,被动残基在活性残基周围自动定义,基于活性残基和被动残基,生成模糊交互约束(AIR)。最终使用UCSF Chimera[22]完成对接复合体的图解和可视化。
2.4 WRKY结构域及其复合物的分子动力学(MD)模拟
使用Gromacs 5.0软件包[23,24]对野生型和突变体(Ⅰ和Ⅱ)WRKY结构域进行MD模拟。对于未绑定和绑定的WRKY DBD模拟AMBER99SB-ILDN蛋白都应用核酸AMBER94力场[25,26]。所有体系都使用简单点电荷(SPC)水模型中的极小值在立方水箱中溶解[27],加入离子取代水分子来中和整个系统,以确保野生型和突变体(Ⅰ和Ⅱ)WRKY DBD的总体电荷为中性。首先,为了消除空间冲突,使用了能量最小化50,000个循环的最速下降算法。通过我们之前的工作[28-31]中使用过的类似方法,将进一步最小化的系统平衡在1000 ps的NVT和NPT阶段。随后,分别使用Vrescale,改良的Berendsen恒温器温度耦合方法[5]和Parrinello-Rahman压力耦合方法[6]来维持系统的温度(300 K)和压力(1 bar)。最后,将平衡良好的体系在300 K和1 bar的压力下进行100,000 ps的生产运行。除此之外,我们还分析了野生型和突变体WRKY DBD每个残基的动态行为和稳定性,包括均方根偏差(RMSD),回转半径(Rg),均方根波动(RMSF),溶剂使用Gromacs内置工具可访问的表面积(SASA)和氢键分布,并使用RMSD构象聚类算法(Gromacs的gmx-cluster模块)提取代表性结构。使用2.0Aring;的截止值,并考虑质心最低RMSD的蛋白质构象来提取占据最大的聚类。使用Nucplot推导了MD之前和之后的模拟复合物中蛋白质-DNA相互作用的示意图。
2.5 结合自由能的计算
使用分子力学/泊松玻耳兹曼表面积(MM/PBSA)方法计算WRKY蛋白质-DNA复合物的结合自由能[32],使用Gromacs的g_mmpbsa工具进行进一步分析。使用MmPbSaDecomp.py python脚本计算每个残基对结合自由能的贡献。
2.6 基本动力学研究
基本动力学(ED)或主成分分析(PCA)可以检索对生物过程和分子功能至关重要的模拟轨迹中的原子集体运动,以此来降低数据的复杂性。在Gromacs中确定沿前两个主分量投影的特征向量和特征值[33]。ED的第一步是在消除旋转和平移运动之后,使用轨迹的平衡模拟时间生成协方差矩阵,然后将矩阵对角线化,以识别一组特征向量和特征值。Gromacs的gmx-covar,gmx-anaeig和gmx-sham模块用于计算PC1与PC2构象空间中的PCA和吉布斯自由能态[34]。
3 结果和讨论
3.1 序列分析和表达模式
WRKY结构域由60-70个氨基酸残基组成,具有高度保守的七肽WRKYGQK [35]。 在这项研究中,我们选择HvWRKY46(称为野生型WRKY)作为Ⅰ组成员,在N端和C端均显示两个DBD,但只有C端的DBD负责与DNA序列特异性结合。来自Ⅲ类的HvWRKY34具有WRKYGEK(其中野生型中的极性不带电荷的谷氨酰胺替换为极性带负电的脂肪族氨基酸谷氨酸;Q17E),被称为突变体Ⅰ。类似地,来自组的Ⅱ类的HvWRKY19,具有WRKYGKK(其中野生型的极性不带电荷的谷氨酰胺替换为极性带正电的赖氨酸;Q17K),被称为变体Ⅱ(图1a)。由于这些氨基酸的替换,各个序列在WRKY结构域的分子系统发育分析中显示出差异,并以此分到大麦的不同组别中[7,15]。据报道,WRKYGQK中的任何残基替换为丙氨酸都会显著降低DNA结合活性[36]。为了检查氨基酸替代对蛋白质功能、结构特性和DNA结合模式的影响,科学家已经进行了广泛的计算分析。使用STRING数据库研究了WRKY基因家族在整个植物物种中的发生模式。结果显示,双色高粱是大麦WRKY基因最接近的同源物,具有418.0的高比对分数,其次是狗尾草和短枝曲霉(比对分数:413.0和408.0)(图1b)。如表1所示,使用Protparam比较分析了野生型、突变体Ⅰ和突变体Ⅱ的WRKY结构域的理化性质(例如理论pI、不稳定性指数(II)和脂肪指数(AI))。
图1a:HvWRKY46(野生WRKY),Hv 剩余内容已隐藏,支付完成后下载完整资料
英语原文共 16 页,剩余内容已隐藏,支付完成后下载完整资料
资料编号:[275639],资料为PDF文档或Word文档,PDF文档可免费转换为Word
课题毕业论文、外文翻译、任务书、文献综述、开题报告、程序设计、图纸设计等资料可联系客服协助查找。