Science封面:基因组长测序获突破性进展-观察-生物探索
威斯腾促销
安诺医学转录组,让科研与临床更近一步
贝康招聘

Science封面:基因组长测序获突破性进展

2016/04/06 来源:生物探索
分享: 
导读
Gordon等人运用长读长测序技术提高了我们的近亲大猩猩基因组数据,文章发表在4月1日的Science上。从一个单个的个体减少了装配的片断并恢复了以前遗漏的基因和非编码基因位点。


准确的基因序列和基因组的装配是我们理解进化和遗传变异的关键。尽管短读测序技术的进步已经降低了成本和提高了输出量。因为存在重复的基因,哺乳动物基因组的全基因组组装仍然是个问题。

大猩猩是人类除了黑猩猩之外的又一近亲,在研究人类进化起源以及进化方面有着重要的作用。获得完整的、非人灵长类动物的高质量基因组也将帮助我们了解人类生物学。Gordon等人运用长读长测序技术提高了我们的近亲大猩猩基因组数据,文章发表在4月1日的Science上。从一个单个的个体减少了装配的片断并恢复了以前遗漏的基因和非编码基因位点。从其它大猩猩的短序列拼接有助于构建一个记录了遗传差异的大猩猩群体序列。和人类基因组相比发现了从一到上千个碱基的种和种之间的差异,包括一些影响基因调控的差异。

这项研究的目标是利用单分子的、实时(SMRT)测序技术和一种新的组装算法来测序和装配西部低地大猩猩的基因组,从长(> 10 kbp)序列中获得优势。研究人员特别比较了本程序集的大猩猩基因组组件和通过使用更常规的短序列读取的方法获得的数据集的属性,以确定长期读基因组组装的值和生物的影响。


研究结果

该研究从名叫Susie的西地大猩猩分离的外周血DNA产生了74.8倍的SMRT全基因组鸟枪序列。运用弦图(string graph)装配方法 和 Falcon的一致性算法产生了9.6Mbp的N50的重叠群和1个3.1 Gbp的拼接。从其它6只大猩猩基因组的短读长序列也被拼接以减少缺失位点的错误和最后组装的准确性。

大约98.9%的大猩猩常染色体基因组被组装成1854个序列重叠群。拼接显示了在重叠群方面的提高:相对于发表的大猩猩基因组800倍的覆盖,相对于刚刚升级的大猩猩基因装配群180倍的覆盖。大多数的序列间隙现在已经填上,可靠的提高了全基因组模型的产量。估计87%的缺失外显子和94%的不完整基因被修复。

研究人员发现大多数最长见的重复序列全长已被解决,在GC丰富的反转录转座子有最显著的收益。尽管是复杂的区域比如主要的组织相容性基因位点也能精确地测序和组装。但是异染色体和高密度重复片段还不行,因为读长还没有长到足以跨越这些重复结构。

长的读长装配降低到50个bp长度的结构性差异产生更精细的图谱,促进在人和猩猩谱系的分歧中,数千个谱系特定结构差异。这包括了两个物种间特定基因的破坏和预测的调控区域的丢失。研究表明,使用新的大猩猩基因组装配群改变了估计的分歧和多样性,对以前的群体遗传推论导致微妙但实质性的影响,如物种瓶颈的时间和有效种群规模在进化过程中的变化。

结论

通过长读数数据产生的基因组拼接群为基因含量、结构变异和重复生物学提供了更完整的图谱,提高了全体基因组和进化的理论。长读长测序技术变得很实用,使得个别实验室能产生高质量的参考基因组合复杂的哺乳动物基因组。该方法为常规的哺乳动物基因组接近现在的人类基因组的质量提供了一个路径。


本网站所有注明“来源:生物探索”的文字、图片和音视频资料,版权均属于生物探索所有,其他平台转载需得到授权。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(editor@biodiscover.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。