人类首个泛基因组草图公布!又多了1.19亿个碱基对,更好反映人类多样性!

2023-05-18 16:04 · 生物探索

5月10日,由人类泛基因组参考联盟制作的首个人类泛基因组参考草图在Nature上发布。

虽然现在随着手机的普及和网络的发达,已经很少出现手机/手表时间不准的情况。不过如果发生这种情况,通常都需要将手机/手表与一个公认的标准时间进行同步。人类基因组计划的成果就是为科学家们提供了这样一份公认的“标准”——参考基因组。就像一个坐标系,研究人员可以对照参考基因组,更好地理解人类基因组的结构、功能和变异。

人类基因组计划于1990年开始,2001年完成工作草稿并发表,2003年完成最终测序图谱,堪称是人类生命科学史上里程碑式的成就。不过,这份“地图”并不是完整的,还留下了8%的空白

1684397970356131.png

图1 人类基因组计划LOGO(图源:维基百科)

这8%的空白主要是基因组中的异染色质区域。所谓异染色质,是相对常染色质而言。常染色质会被碱性染料染成浅色,或对福尔根反应呈弱阳性;异染色质则会被染成深色,或对福尔根反应呈阳性。异染色质或是在整个细胞周期内都处于凝聚状态,比如着丝粒、端粒、核仁形成区等部位;或是在一定的发育时期和生理条件下,由常染色质凝聚成异染色质,比如雌性哺乳动物的一对X染色体中,有一条会在胚胎发育得第16-18天凝聚为相对失活的巴氏小体

异染色质高度凝聚,同时充满着重复序列,这就使得测序困难,也不好对测序结果进行组装。这是由于当时的技术仅能实现短读长测序,即测序的时候需要把基因组打断成较短的DNA片段,在对每个片段完成测序后,再通过一定的算法比对和匹配重叠序列,逐步将片段拼接成完整的基因组序列。因此,重复序列的存在极大地阻碍了片段的拼接和组装,而短读长测序意味着测序的DNA片段必须足够短,就像使用极小的碎片进行拼图,进一步增加了重建基因组的难度。

不过,随着测序技术的进步,人们能拿到的“碎片”越来越大,“拼图”的难度有所降低。2022年3月底,“端粒到端粒(Telomere-to-Telomere,T2T)”联盟公布了一个完整的人类基因组序列T2T-CHM13,补上了8%的空缺。该基因组序列源自一枚完全性葡萄胎(Complete Hydatidiform Mole, CHM),即只含有父源性基因组,而不含有母源性基因组。这使得重建基因组时,不必面对父源、母源基因组错误交叉组装的难题,但也使得最终的结果未能包含Y染色体的序列。

不过,T2T-CHM13和目前主流使用的人类参考基因组GRCh38(Genome Reference Consortium Human Build 38)一样,主要基于单个基因组。GRCh38是基因组参考联盟(Genome Reference Consortium,GRC)在人类基因组计划的基础上不断更新和维护,于2017年发布的最新版本,2022年3月发布了最新的补丁GRCh38.p14。该基因组的来源中,大约70%来自于纽约布法罗市的一名男性,23%来自于另外10人,剩下7%由超过50人贡献。据分析,该男性具有非洲-欧洲混合血统。

1684398141541267.png

图2 不同基因组来源对GRCh38的贡献(图源:[3])

尽管地球上任何两个人基因组的相似性高达99.5%-99.9%,但显然,这不到1%的差异造就了人类的遗传多样性。而且,在涉及结构变异(Structural variation,SV)时,即基因组中发生较大片段的插入、删除、倒位或重复时,参考基因组无法正确地描述和表征。此外,还有数百兆碱基仅在一部分具有特定祖源的人群身上出现,并未被包含到参考基因组中。因此,仅使用单一的基因组作为参照是远远不够的。比如,在预测疾病风险时,对于黑人来说,仅对照现有的参考组,可能会产生较大的低估。

5月10日,由人类泛基因组参考联盟(Human Pangenome Reference Consortium,HPRC)制作的首个人类泛基因组参考草图在Nature上发布。与以往的参考基因组不同,这次的泛基因组草图包含了来自全球的47名具有不同祖先的个体的共计94份基因组,并对这47人的父母也进行了基因组的收集,以分析他们基因的父、母源性。

1684398205412534.png

图3 泛基因组参考草图发布(图源:[4])

这47人包括来自非洲、美洲和亚洲的个体,其中也有来自中国的代表。其中许多样本来自于千人基因组计划(1000 Genomes Project),并由人类泛基因组联盟使用“长读长测序”的新技术进行重新分析。团队计划到2024年年中,将样本范围扩大到350人。

1684398227254088.png

图4 47人来源(图源:[4])

相较于GRCh38,这次的结果在原先32亿碱基对的基础上新增了1.19亿个碱基对,其中,大约由9000万个来自结构变异。另外,团队还发现了 1115 个与进化有关的新基因重复。

为了更好地呈现泛基因组参考草图,纽约西奈山伊坎医学院的遗传学家Eimear Kenny和她的同事通过计算,将47人的序列排列到一起,绘制出一个和地铁线路图有些相似的“泛基因组图”。

1684398255665195.png

图5泛基因组参考(图源:国家人类基因组研究所)

在这张图上,碱基相同的部分与以往的单一基因组参考一样保持了线性,而在某些单个核苷酸差异的地方,出现了路线的分歧,另外,绕过某个核苷酸代表缺失(如上图绿色和深蓝色路径),顺时针环绕代表重复(如黄色路径),逆时针环绕代表倒位(如粉色路径)等等。

这次的泛基因组参考草图实现了预期序列99%的覆盖,并且在结构和碱基对水平上也达到了超过99%的准确度。与基于GRCh38 的工作流程相比,使用该草图分析短读长数据可降低34%的小遗传变异发现错误,并在检测单倍型结构变异时检出率增加了104%。

论文的第一作者、耶鲁大学的研究附属机构和圣路易斯华盛顿大学博士生Wen-Wei Liao表示:“人类泛基因组参考使得我们能够表征数以万计的新基因组变异,这些变异在以前是无法获得的。有了泛基因组参考,我们可以提高对基因和疾病之间联系的理解,从而加速临床研究。”

国家人类基因组研究所(National Human Genome Research Institute,NHGRI)主任医学博士 Eric Green表示:“基础研究人员或者临床医生,都应该具备接触到能够反映人口多样性的参考序列的机会,这样才能减少人类健康上的不公平性。人类泛基因组的创建和更新符合NHGRI在基因组学研究的各个方面上追求全球多样性的一贯目标,有助于推进基因组知识的传播,促进基因组医学以更公平的方式实施。”

目前,大多数参与HPRC的机构都位于美国和欧洲。HPRC成员机构、加利福尼亚大学圣克鲁兹分校的遗传学家Karen Miga表示,下一阶段该项目将向一项真正的国际间合作发展,并对历史上代表性不足的地区进行充分采样和测序。除了使用多样的基因组外,该项目还将积极接触样本人群并了解他们的医疗保健需求,使得这些人群能够直接从该项目的成果中收益。

参考资料:

[1]首个完整人类基因组图谱公布,长江日报记者对话6名中外专家

https://baijiahao.baidu.com/s?id=1730855664140430887&wfr=spider&for=pc

[2]Nurk S, Koren S, Rhie A, et al. The complete sequence of a human genome.Science376,44-53(2022).DOI:10.1126/science.abj6987

[3]https://www.ncbi.nlm.nih.gov/grc/help/faq/#human-reference-genome-individuals

[4]Liao, WW., Asri, M., Ebler, J. et al. A draft human pangenome reference. Nature 617, 312–324 (2023). https://doi.org/10.1038/s41586-023-05896-x

[5]Arya Massarat, Melissa Gymrek. (2023) A collective human reference genome. Nature

[6]https://www.genome.gov/news/news-release/scientists-release-a-new-human-pangenome-reference

[7]https://www.science.org/content/article/pangenome-hopes-represent-more-diverse-view-humans