Science报道测序又一新用途:宏基因组数据可做蛋白结构预测
2017/01/24
美国华盛顿大学的研究人员报告说他们已经从“宏基因组学”的项目(来自土壤和海洋大量微生物的DNA片段)找到了如何预测未知蛋白质结构的方法。相关结果发表在1月19日的Science上。


美国华盛顿大学的研究人员报告说他们已经从“宏基因组学”的项目(来自土壤和海洋大量微生物的DNA片段)找到了如何预测未知蛋白质结构的方法。相关结果发表在1月19日的Science上。

这项工作预测了614个蛋白的结构,在没有实验结构存在的5211个蛋白家族中占12%。新的蛋白结构有望对细胞内部工作的进一步了解,并为研发新的药物铺平道路。而且该项技术会在宏基因组测序进一步发展的状况下继续成长得更强有力。

分析蛋白家族的结构是一个巨大的工程

仅仅根据基因序列是不可能知道蛋白质如何折叠的。可能的结构是天文数字,尽管计算生物学家在缩小可能性方面取得了进展。几十年的实验和计算工作表明,氨基酸更倾向于彼此依偎,并保持在一个臂的长度。这有助于研究人员计算最稳定的折叠模式,但主要是相对较小的蛋白质。但对于较大的蛋白,变量的数量使得计算非常棘手。

基因序列中的共进化对会有助于蛋白结构分析

在上世纪90年代,哈佛大学的计算生物学家Chris Sander,表明基因序列数据可以有所帮助。Sander推断当蛋白质折叠时,在二维上相当遥远的氨基酸对可能在三维折叠的蛋白质上是相邻的,这提供了让蛋白质来保持其形状的关键相互作用。如果基因突变导致这些氨基酸中的一种改变,它可以破坏这种相互作用,使蛋白质失去作用,并可能杀死有机体。但在极少数情况下,基因突变可能同时改变两种关键氨基酸,保持它们之间的相互作用,使蛋白质能够继续发挥作用。进化将有利于这种串联的突变,导致氨基酸的伙伴共同进化。


共进化对的示意图

Sander建议要找到这些共同进化对,要查看的不只是一个单一的生物蛋白基因序列,而是很多。生物体从细菌到人类共享许多密切相关的蛋白质。通过比较这些共享蛋白的基因序列,研究人员可以定位这些共同进化的DNA片段。任何这样氨基酸对的代码,很可能作为一个三维结构的近邻,就是需要改善计算机折叠算法的约束类型。

Rosetta结构预测运用宏基因组数据

这个方法叫做Rosetta结构预测,通过进化信息来预测残基之间的接触。这种方法能对属于大型家族的蛋白建模,比蛋白家族数多三倍的充足宏基因组数据能够准确地建模。几年前由Sander 和 David Baker领导的华盛顿大学的生物化学家的工作,表明了这个想法能够起作用。到目前为止,照这个方法确定了几十种蛋白质的结构,Baker解释说:“限制的事情是得到更多的序列数据。”

Baker在这个方法上加大了力度,根据发表在Science上的报道他们已经采用宏基因组测序技术结合使用的技术,通过筛选的序列数据,他们能够追踪足够的共进化的氨基酸来确定614个蛋白的结构,每一个代表未发现结构的一个完整家族的蛋白。206个是膜蛋白,137个折叠的蛋白没有在蛋白数据库中有代表。使用这些结构的模板,计算生物学家应该能够模拟成千上万的相关家族的结构。这种方法为大型蛋白家族提供了代表性模型,开创了以小成本获得蛋白结构的想法。

参考资料

Hundreds of elusive protein structure spinned down from genome data

Protein structure determination using metagenome sequence data

Seeking structure with metagenome sequences
查看更多
  • Protein structure determination using metagenome sequence data

    Despite decades of work by structural biologists, there are still ~5200 protein families with unknown structure outside the range of comparative modeling. We show that Rosetta structure prediction guided by residue-residue contacts inferred from evolutionary information can accurately model proteins that belong to large families and that metagenome sequence data more than triple the number of protein families with sufficient sequences for accurate modeling. We then integrate metagenome data, contact-based structure matching, and Rosetta structure calculations to generate models for 614 protein families with currently unknown structures; 206 are membrane proteins and 137 have folds not represented in the Protein Data Bank. This approach provides the representative models for large protein families originally envisioned as the goal of the Protein Structure Initiative at a fraction of the cost.

    展开 收起
发表评论 我在frontend\modules\comment\widgets\views\文件夹下面 test