新冠变种的发现背后--被“卡大动脉”的生物信息学

2021-09-27 15:04 · 生物探索

从南京到莆田再到哈尔滨,抗疫战斗仍在继续,时刻都不能放松。我们能够迅速鉴定、识别新冠的新变种,离不开一个学科的贡献:生物信息学。

从南京到莆田再到哈尔滨,抗疫战斗仍在继续,时刻都不能放松。我们能够迅速鉴定、识别新冠的新变种,离不开一个学科的贡献:生物信息学。然而鲜有人知的是,这个关系着病毒鉴定、药品研发、罕见病预防、生育缺陷阻断的学科和产业,却是一个一直被欧美、日本这些发达国家“卡大动脉”的领域。我们的生物产业发展,一直在从欧美的生物信息数据库中汲取赖以生存的“养料”,如果有一天这个输送养料的动脉:生物信息数据库,被限制访问,我们的生物医药产业将即刻陷入“营养不良”,甚至有危及生命的可能。

生物信息学主要是把生物研究中,产生的大量、多类别的数据,进行有序的整理,加以完整和全面的分析。生物信息学数据库是把原始数据和分析结果收集、整合成结构统一、标准一致的数据中心,供研究或研发者使用。目前我国生物信息学的发展严重依赖NCBI、EBI这些欧美数据库。NCBI、EBI以及日本的DDBJ(DNA Data Bank of Japan)是INSDC(InternationalNucleotide Sequence Database Collaboration)联盟成员,是目前事实上的生物信息数据库基石。我们查序列需要使用GenBank数据库、查文献需要使用PubMed数据库、查遗传病相关信息需要用到Clinvar、OMIM等数据库、发表文章时需要上传测序结果的SRA(The Sequence Read Archive)数据库,这些数据库贯穿我们生物信息相关的产学研工作。

1632726430711874.png

(图一:国际核算数据库合作的组织架构:NCBI的GenBank、EBI的ENA(European Nucleotide Archive)、DDBJ的数据库可以互通。)

在EBI上,每天大约有8200万次访问,其中来自中国的访问占据第二名,约8%。在NCBI上,大约23%的用户是中国用户,是NCBI第一大用户群体,同时中国是目前NCBI GenBank数据库数据的主要贡献者,因为我们发表的高影响因子的期刊,都是要求数据提交和发布的。NCBI、EBI这些数据库基本上每12-18个月数据量就会翻倍,目前EBI已经扩容到390 PB以存储目前的生物信息学数据,SRA数据库已经有36 PB的原始数据。预估目前生物医学领域的数据已经达到ZB(Zetta Byte, 1021 bytes)级别。

1632726463844041.png

(图二:EBI的数据增长趋势图)

我国的生物信息学数据库建设目前仅处于起步阶段,比如于2018年发布的国家基因库生命大数据平台(CNGBdb)和依托中科院北京基因组研究所于2019年成立的国家基因组科学数据中心(NGDC)。截至目前,向CNGBdb提交的原始数据达到5 PB,向NGDC提交的组学原始数据达到9.9 PB。我们有大量的科研数据和成果,以独立项目的形式保存学校或项目组下,缺乏一个统筹的机制,在项目完成后,把分散在项目组的数据,集中保存加以再分析,最大化地利用数据的价值。数据库缺失使得我们药物开发的第一步:生物信息学,必须建立在欧美国家搭建的地基上。如果这条给中国生物信息学提供血液和养分的“大动脉”受到限制,中国生物医药产业的研究和发展就会因为营养不良而萎缩。

我们急需在国家的层面上,建立跨学科、跨学校的机构,为中国的研究者提供我们中国人的数据库。从欧洲和美国的成功经验看,这样的一个长期机制,离不开国家牵头成立一个专门的机构。这会是一个以服务为中心的机构。比如成立于1992年的EBI就设有27个服务分支,涵盖生物基因组测序、蛋白质测序和结构、小分子化合物的化学性质和结构、培训、研究生教育、跨学校和机构的合作等。EBI背后拥有强有力的政府支持,每年预算约6.5亿人民币,主要出资者是英国政府,欧盟和美国。1988年成立的NCBI也是由美国政府出资的国家项目,已经发展出17个分支,除了建立了跟EBI对应的数据库,还开发了生物信息学最基础的分析软件。

除了国家的长期资金投入,建立这样一个跨学科的以服务科研和企业研发的生物信息学机构,离不开具有跨学科背景的专家领导。比如EBI的两个总负责人之一,Dr. John Frederick William Birney是一个具有极强的生物信息学和生物算法研究背景的教授,他是人类基因组计划的研究者、发现了如何从基因序列中寻找出编译蛋白质的基因元件,建立了生物数据分析的底层算法,主导了多个关键的高通量生物信息研究的课题。另一个总负责人是Dr.Rolf Apweiler, 他更关注于实验方法的建立,主导了多个蛋白质、核酸的高通量实验。

为了让我们的科研和产业不被切断“大动脉”,不会因为得不到最重要的信息养料供给而萎缩,希望我们在不久的将来,能有国家层面的政策和资金支持,长年累月地坚持数据收集、整理和发布,做自己的数据库,给我们自己的医药发展、疾病防控带来源源不断的养分和动力。