400位科学家9年研究为垃圾DNA正名

2012-09-07 08:00 · wenmingw

在人类基因组计划之后,数百位科学家历时9年完成了DNA元件百科全书(ENCODE)计划。在这个庞大的研究项目中,最为重要的发现是“垃圾DNA”并非垃圾,而是活跃地影响着基因的遗传开关。这些发现必将带来医学和科学的飞越发展。

在人类生物学中存在许多难解的谜团,例如为什么糖尿病、高血压和精神疾病等疾病如此难以预测和治疗。另一个同样令人困惑的问题是,为什么在一对同卵双胞胎中,当其中一个患了诸如癌症、抑郁等疾病时,而另外一个却十分健康。

如今,经过科学家的努力,解开这些谜团的关键线索已经慢慢显现。在人类的基因组中,至少有400万的遗传开关存在于那些此前被误认为“垃圾DNA”的片段中,在控制细胞、器官、以及其他组织的行为中发挥着关键的作用。这一发现被认为是重大的医学及科学突破。由于许多的复杂疾病是由数百个遗传开关中的细微变化而引发的,所以这一发现将给人类健康带来巨大的影响。

垃圾DNA并不垃圾

这些发现是一个庞大的研究项目的成果。全世界32个实验室共440名科学家参与了这一研究。这些成果将可直接应用于人类对DNA上非基因片段上变化如何导致疾病的问题的研究,并继而带来新的药物。这些发现也有助于解释环境是如何影响疾病风险的。以同卵双胞胎为例,由于接触环境带来遗传开关的细微变化,双胞胎中的其中一个可能会患上疾病而另一位却安然无恙。

当科学家们深入研究了“垃圾DNA”,也就是那些不含蛋白质指导信息的非基因DNA后,他们发现那些并非完全就是垃圾。实际上80%的所谓“垃圾DNA”是活跃且必需的。研究结果就像是一张标注了的地图,对大部分的这种DNA进行了标注,注释其功能以及作用方式。包含在其中的遗传开关系统就像是灯光的开关,控制着细胞中哪些基因会被用到,何时被用到,并从而决定一个细胞的发育目标,比如是发育成肝脏细胞还是神经细胞。

“就像谷歌地图,”美国布洛德研究所(Broad Institute)的主任Eric Lander说。而在此之前完成的完整人类DNA测序的人类基因组项目则“就像是从太空中给地球拍照。”他说,“那并没有告诉你地球上的路在那里,也没告诉你某一天某个时段的交通状况如何,哪里有好的饭店,也无法告诉你医院、城市或河流的位置。”他表示,新的研究成果“是令人震惊的资源。”

这些发现共以6篇Nature、24篇Genome Research和Genome Biology论文发表。此外,The Journal of Biological Chemistry还刊登了6篇评论文章,Science也正发表另一文章。

该项目的负责人,来自欧洲分子生物学实验室-欧洲生物信息学研究所的Ewan Birney说,人类DNA“比我们预料中药活跃的多,在其中正发生着许多我们预料外的事情。”

在其中一篇Nature论文中,研究者将遗传开关与一系列疾病——多发性硬化病、红斑狼疮、风湿性关节炎、克罗恩病、乳糜泻——甚至是身高特征关联了起来。在过去十年的一些大型研究中,科学家们发现在人类DNA序列上的较小变化都会提高人们患那些疾病的风险。不过那些变化存在于“垃圾DNA中”,现在则更多地被归为暗物质——它们不是基因上的变化——且它们的意义也未知。新的分析发现,大量的这些变化在控制着遗传开关,具有积极重要的意义。

“绝大多数影响疾病的变化并非发生在致病基因本身之中,而是在开关中,”参与这一庞大项目的斯坦福大学科学家Michael Snyder。这个项目被命名为Encode,意为“DNA原件大百科全书”。

这些发现还可以揭示在肿瘤中哪些遗传变化是重要的,为什么重要。当研究者们开始对肿瘤细胞的DNA进行测序时,他们发现,肿瘤细胞中数千个DNA变化中的绝大多数并未发生在基因中,而是发生在暗物质中。科学家现在面对的挑战是要弄清楚在这些变化中,是哪些在驱动着肿瘤的生长。

美国威尔康乃尔(Weill Cornell)医学院的Mark A. Rubin博士是一位前列腺癌基因组学科学家,他并未参与Encode项目。他评论这些成果时说:“这些论文意义重大。它们必定会对我们癌症医学研究产生影响。”

在前列腺癌研究中,Mark A. Rubin博士的团队发现药物并不能轻易地攻击到那些发生在重要基因中的突变。而Encode项目通过揭示哪些暗物质区域控制着那些基因,则可以找到另外的攻击手段:以那些发挥控制功能的开关为目标。

Rubin博士也用到谷歌地图这个比喻。他说:“现在你可以沿着道路走,查看交通运行状况。我们也将以同样的方式将这些数据运用到癌症研究中。”他说,Encode为癌症研究者提供了一张画有其他追踪肿瘤基因的线路的地图。

庞大的Encode计划

Bernstein博士说:“这是一种资源,就像人类基因组,将促进科学的发展。”这个系统惊人地复杂,也存在冗余。光这个包含如此多遗传开关的理念就几乎令人难以理解了。

同时,其中的DNA线路连接系统也几乎是不可思议地错综复杂。参与了该项目的耶鲁大学的Mark Gerstein说,“那就像是打开一个配线箱,发现里面是一个线团。我们试图揭开这个线团,并对其进行解读。”

这样的线团还不止一个,DNA复杂的三维结构就是其一。人类DNA链总长大约10英尺,紧紧缠绕盘旋后塞在细胞的细胞核中。在对这样的线圈三维结构进行观察时,Encode项目的研究者发现暗物质DNA通常非常靠近它们所控制的基因。在过去,科学家们通常只对展开的DNA链进行分析,那些起控制作用的区域看起来就离它们的控制对象相当的远。

Encode项目开始于2003年,那时,科学家们已经开始意识到他们对人类DNA的认识还相当的有限。近年来,一些科学家开始在99%的非基因人类DNA中去寻找遗传开关,但是他们无法完全的定性或解释绝大多数遗传开关的功能。

来自冷泉港的Thomas Gingeras说,在这个项目开始前,人们以为人类DNA中只有5%-10%是在实际使用中的。

这个项目的成果带来的惊喜不仅仅在于发现几乎所有的DNA都是有用的,还在于发现人类DNA中很大一部分是遗传开关。华盛顿大学科学家John Stamatoyannopoulos博士(未参与Encode)说,在Encode前,“如果你说基因组有一半甚至可能更多具有指导基因开关的作用,我想不会有人信你的。”

当美国国家人类基因组研究所 (National Human Genome Research Institute,隶属NIH)着手启动Encode项目时,DNA测序技术和计算生物学的巨大发展使得科学家们可以很方便的了解人类DNA中的暗物质。不过尽管如此,研究分析还是相当的令人望而却步——研究生成的总原始数据量有15万亿字节之多。分析这些数据大约需要300年计算机时间。

仅仅是将研究者们组织起来,协调各种工作都是一个艰巨的任务。为了协调如此多的工作人员,Encode的领导人Gerstein博士画了一张研究人员关系图。就是这张图,看起来也差不多和人类DNA遗传开关线路连接图一样复杂。而现在,一部分工作已经完成,数百位作者已经完成他们的研究论文。

这还仅仅是其中一部分,还有相当多的工作等待着他们去做。不过这是Encode下一阶段的事了。