安诺医学转录组,让科研与临床更近一步
威斯腾促销
第六届胶原蛋白行业论坛第一轮通知

基因大数据走向临床应用,哪些问题要克服?

2015/12/05 来源:测序中国
分享: 
导读
为了推动基因组研究在临床中的应用,多个国家层面的大规模研究项目已经开启。许多区域性的大数据计划也在进行中。例如,宾夕法尼亚州的盖辛格健康系统(GeisingerHealth System)和纽约的再生元制药公司合作,计划获取25万人的基因组测序数据。


为了推动基因组研究在临床中的应用,多个国家层面的大规模研究项目已经开启。2014年英国发起了10万人基因组计划,美国和中国也宣布了百万人基因组数据相关计划。许多区域性的大数据计划也在进行中。例如,宾夕法尼亚州的盖辛格健康系统(GeisingerHealth System)和纽约的再生元制药公司合作,计划获取25万人的基因组测序数据。与此同时,世界各地越来越多的医院和服务供应商也开始对那些癌症或罕见遗传病患者进行基因组测序。

海量的数据会给计算分析和存储带来前所未有的压力,有分析估计,基因组学很快就能超过YouTube的数据量。但许多研究者认为,如今的大数据还不够丰富,不具有临床价值。盖辛格基因组医学研究院院长MarcWilliams说,“我不知道100万是否足够,但显然我们需要更多。”

变异数据应用到临床的挑战与实践

单核苷酸层面的突变

目前,许多研究机构主要采用外显子组测序,其相对于全基因组而言,可以减少近100倍的数据分析工作量。然而,仍有超过约1.3万个单核苷酸突变被鉴定。这其中大约有2%影响蛋白质的翻译,寻找其中的致病突变是一个艰巨的挑战。

几十年来,研究人员陆续将他们发现的单核苷酸突变信息放入公共资源数据库中,如dbSNP数据库。然而,这些突变信息往往来源于细胞层面、动物模型甚至是理论预测,还不足以用于临床诊断。在许多情况下,这些突变与疾病相关性的证据等级很低。

结构变异

基因组序列的重复或缺失,这类结构变异使临床应用情况更为复杂。现有的测序技术很难检测到结构变异。在全基因组范围内,个体之间存在数百万个变异。其中许多变异位于非编码区,这一区域不编码蛋白但有调节基因活性的作用,仍然是可以致病的。由于非编码区的范围和功能难以界定,即使能够获得其中的变异信息,短期内也无法进行临床解读。

针对这些问题,人们正在努力地去解决。例如,美国国家人类基因组研究所建立了临床基因组资源库,这是一个与疾病相关的突变数据库,里面有可以指导医疗的突变信息和支持证据。GenomicsEngland公司通过建立“临床解读的合作伙伴关系”来推动这方面的进展,即:医生和研究人员合作,建立强大的疾病-基因型关联模型。

大队列的需求明显

一些“恶性”突变通常在进化过程中被淘汰,往往十分罕见,需要大样本量来进行检测。因此,建立有统计学意义的突变与疾病弱相关性模型也需要大量的患者。

冰岛的deCODE Genetics公司将15万人的基因组数据(包括1.5万全基因组序列),与家谱和病史相结合,推断已知的遗传危险因素在全民中的分布情况,包括与乳腺癌、糖尿病和阿尔茨海默病相关的基因突变。正如该公司的首席执行官KáriStefánsson所说,“我们建立了1万个有功能缺失突变的冰岛人数据库。我们正投入巨大的精力来弄清楚这些基因缺失对个体有什么影响。”

对于deCODE Genetics公司开展这项工作的成功得益于冰岛人口的基因型同质性,然而,对于其他项目需要更广泛的基因谱。例如,国际千人基因组计划已经编目了一些遗传多样性数据,但大多数数据严重偏向高加索人,使这些数据对临床研究用处减弱。

此外,部分问题也源于参考基因组。第一个参考基因组版本是由几个不同种族的随机捐赠者基因拼凑而成的,但最新的版本GRCh38,整合了更多人类基因组多样性的信息。

基因大数据的人才和计算能力

对大规模人群进行基因组或外显子组测序每年产生高达40PB(4千万GB)的数据。相比之下,原始数据存储并不是首要的问题,更大的问题是巨量突变数据的分析。宾夕法尼亚州立大学基因组学研究员Marylyn Ritchie 说,“计算量与人的数量呈线性关系,当变量和组合增多时,计算量就呈指数倍地增加。”如果增加的数据与临床症状或基因表达相关,那么分析会变得更加棘手。来自数千人的巨量数据的处理可能会使目前很多统计分析的工具瘫痪。Ritchie说,“像气象、金融和天文学领域,都在整合不同类型的数据上摸索了很长一段时间,我和谷歌及Facebook的人都交流过,尽管我们的大数据和他们的不同,但我们应该多交流,将他们的经验用于我们的领域中。”

然而,遗憾的是很多有大数据挖掘经验的优秀程序员都被硅谷吸引走了。美国国家卫生研究院的数据科学副主任Philip Bourne认为,科学界的论文评价体系不适合于这些人才。尽管这其中一些人真心想成为基因大数据领域的学者,但却得不到学者的职位。

除了人才,数据处理能力是另一个限制因素。基因大数据通常需要使用成百上千个大内存的CPU进行大规模并行计算。为此,许多团队都开始转向“云端”来存放和分析大量数据。Genomics England公司生物信息学主管TimHubbard说,“人们逐渐有了这种想法:将算法应用到数据中去。” GenomicsEngland的云计算依靠政府的设施,其外部访问被严格控制。对于其他研究机构而言,基因大数据的分析渐渐转向了商业云系统,例如Amazon、Google以及阿里的云服务。

如何实现数据的共享与协作

原则上,基于云计算的托管鼓励数据库间的共享和协作。但高度敏感的临床信息及患者同意权和隐私权牵扯到棘手的伦理和法律问题。

在欧盟,会员国间不同的数据处理规则阻碍了合作。与非欧盟国家共享数据需依赖繁琐的机制建立数据保护,与私人组织共享数据需签定限制性的双边协议。为了帮助解决这个问题,全球基因组学与健康联盟(GlobalAlliance for Genomics and Health)制定了《基因组学与健康相关数据责任共享框架》(《Frameworkfor Responsible Sharing of Genomic and Health-Related Data》)。该框架包括隐私和知情同意指南,以及违反规则的组织应该承担的责任和法律后果。

加拿大麦吉尔大学生物伦理学家、该联盟的监管和伦理工作组主席Bartha Knoppers说,“在签署数据传输协议时,如果签署方都同意遵守该框架,他们就省了很多工作。”该框架允许研究组织在保护隐私的情况下分析共享的基因组数据。Knoppers解释,“我们希望在掩盖患者身份的情况下,能将这些数据与临床数据和医疗档案联系起来,否则我们无法实现精准医疗。”

此外,在许多欧洲国家,将基因组学信息纳入电子医疗档案已经变得越来越重要。Hubbard说,“我们的目标是将其整合到标准的全民医保制度中。”英国的“10万人基因组计划”在这方面走在最前端,但其他国家也紧随其后。例如,比利时最近宣布了一项探索医学基因组学的计划。

所有这些国家都受益于这种政府主导的公共医保制度。在美国,情况较为复杂,除了公共医保制度老年和残障健康保险(Medicare)和医疗援助(Medicaid)等外,美国的私人医保制度非常发达,不同的医保公司使用不同的医疗档案系统,这使基因组数据的整合变得困难。2007年,美国国立卫生研究院资助建立了电子化病历与基因组学网络系统(eMERGE),以进行大数据整合与系统管理分析。

临床药物基因组学:从数据到诊治

在医疗档案中整合基因组数据主要是为医生对疾病的诊治提供参考,其中一个应用是药物基因组学。临床药物基因组学实施联盟(CPIC)分析了药物和基因的关系,将相关信息存储在PharmGKB数据库中,并可供临床使用。例如,带有某些突变的人对某种抗凝药响应很差,导致心脏发作风险增加。

如何将基因研究成果用于临床是个耗时耗力的工作。然而, 把基因型和表型信息结合起来可以产生较大的价值。大多数临床相关的基因突变都是通过全基因组关联研究(GWAS)鉴定出来的。研究人员现在可以从医疗档案反向寻找,以确定什么样的临床表现与某种基因突变密切相关。

当然,基因组只是其中的一部分,其他组学也可能成为反映健康状况的晴雨表。

最终,需要患者的参与

在研究人员努力整合数据的同时,患者所发挥的作用也开始显现。例如,我们在进行行为、营养、运动、吸烟和饮酒相关的研究时,需要依赖于患者报告的数据。一些可穿戴设备,例如智能手机和FitBits,正在收集运动和心率数据。因为它的收集很容易,这种数据量在不断攀升。

因此,每个人都是大数据的生产者。普通人产生的数据将远远地超过临床中积累的数据。我们需要将这些不同来源的数据整合在一起,用于患者的管理。随着人们对大数据挖掘利用的能力越来越强大,患者会成为最终的赢家!

本网站所有注明“来源:生物探索”的文字、图片和音视频资料,版权均属于生物探索所有,其他平台转载需得到授权。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系(editor@biodiscover.com),我们将立即进行删除处理。所有文章仅代表作者观点,不代表本站立场。