Science封面:基因组长测序获突破性进展
2016/04/06
Gordon等人运用长读长测序技术提高了我们的近亲大猩猩基因组数据,文章发表在4月1日的Science上。从一个单个的个体减少了装配的片断并恢复了以前遗漏的基因和非编码基因位点。


准确的基因序列和基因组的装配是我们理解进化和遗传变异的关键。尽管短读测序技术的进步已经降低了成本和提高了输出量。因为存在重复的基因,哺乳动物基因组的全基因组组装仍然是个问题。

大猩猩是人类除了黑猩猩之外的又一近亲,在研究人类进化起源以及进化方面有着重要的作用。获得完整的、非人灵长类动物的高质量基因组也将帮助我们了解人类生物学。Gordon等人运用长读长测序技术提高了我们的近亲大猩猩基因组数据,文章发表在4月1日的Science上。从一个单个的个体减少了装配的片断并恢复了以前遗漏的基因和非编码基因位点。从其它大猩猩的短序列拼接有助于构建一个记录了遗传差异的大猩猩群体序列。和人类基因组相比发现了从一到上千个碱基的种和种之间的差异,包括一些影响基因调控的差异。

这项研究的目标是利用单分子的、实时(SMRT)测序技术和一种新的组装算法来测序和装配西部低地大猩猩的基因组,从长(> 10 kbp)序列中获得优势。研究人员特别比较了本程序集的大猩猩基因组组件和通过使用更常规的短序列读取的方法获得的数据集的属性,以确定长期读基因组组装的值和生物的影响。


研究结果

该研究从名叫Susie的西地大猩猩分离的外周血DNA产生了74.8倍的SMRT全基因组鸟枪序列。运用弦图(string graph)装配方法 和 Falcon的一致性算法产生了9.6Mbp的N50的重叠群和1个3.1 Gbp的拼接。从其它6只大猩猩基因组的短读长序列也被拼接以减少缺失位点的错误和最后组装的准确性。

大约98.9%的大猩猩常染色体基因组被组装成1854个序列重叠群。拼接显示了在重叠群方面的提高:相对于发表的大猩猩基因组800倍的覆盖,相对于刚刚升级的大猩猩基因装配群180倍的覆盖。大多数的序列间隙现在已经填上,可靠的提高了全基因组模型的产量。估计87%的缺失外显子和94%的不完整基因被修复。

研究人员发现大多数最长见的重复序列全长已被解决,在GC丰富的反转录转座子有最显著的收益。尽管是复杂的区域比如主要的组织相容性基因位点也能精确地测序和组装。但是异染色体和高密度重复片段还不行,因为读长还没有长到足以跨越这些重复结构。

长的读长装配降低到50个bp长度的结构性差异产生更精细的图谱,促进在人和猩猩谱系的分歧中,数千个谱系特定结构差异。这包括了两个物种间特定基因的破坏和预测的调控区域的丢失。研究表明,使用新的大猩猩基因组装配群改变了估计的分歧和多样性,对以前的群体遗传推论导致微妙但实质性的影响,如物种瓶颈的时间和有效种群规模在进化过程中的变化。

结论

通过长读数数据产生的基因组拼接群为基因含量、结构变异和重复生物学提供了更完整的图谱,提高了全体基因组和进化的理论。长读长测序技术变得很实用,使得个别实验室能产生高质量的参考基因组合复杂的哺乳动物基因组。该方法为常规的哺乳动物基因组接近现在的人类基因组的质量提供了一个路径。


所有文章仅代表作者观点,不代表本站立场。如若转载请联系原作者。
查看更多
  • Long-read sequence assembly of the gorilla genome

    Accurate sequence and assembly of genomes is a critical first step for studies of genetic variation. We generated a high-quality assembly of the gorilla genome using single-molecule, real-time sequence technology and a string graph de novo assembly algorithm. The new assembly improves contiguity by two to three orders of magnitude with respect to previously released assemblies, recovering 87% of missing reference exons and incomplete gene models. Although regions of large, high-identity segmental duplications remain largely unresolved, this comprehensive assembly provides new biological insight into genetic diversity, structural variation, gene loss, and representation of repeat structures within the gorilla genome. The approach provides a path forward for the routine assembly of mammalian genomes at a level approaching that of the current quality of the human genome.

    展开 收起
发表评论 我在frontend\modules\comment\widgets\views\文件夹下面 test