【走近华大一线员工】解码世界DNA的中国年轻人

2016-03-06 06:00 · wenmingw

华大基因(BGI)的总部位于深圳的一家旧鞋厂,当一天的工作结束时,这里就像一座响起下课铃声的数学训练营,穿着牛仔裤和运动鞋的科研人员、技术人员鱼贯涌出楼门,你可以看到一张张稚气未脱的面孔,有人甚至还戴着牙套。


备注:本文作者为商业周刊中文版 Lauren Hilgers。

正在努力研究一种拥有前景广阔的基因编辑技术的美国公司眼下面临着一个强大的竞争对手——中国。

华大基因十多年前开始人类基因组图谱测绘工作,如今,它已是世界最大的从事基因测序的商业机构。在深圳总部,有超过3000名平均年龄26岁的员工每天从事准备DNA样本、监控测序仪、拼合无穷无尽的碱基链的工作。本文原刊于2013年3月1日《商业周刊/中文版》。

全球最大的基因组图谱公司——华大基因(BGI)的总部位于深圳的一家旧鞋厂,当一天的工作结束时,这里就像一座响起下课铃声的数学训练营,穿着牛仔裤和运动鞋的科研人员、技术人员鱼贯涌出楼门,你可以看到一张张稚气未脱的面孔,有人甚至还戴着牙套。几个女孩挽着胳膊,蹦跳着奔向班车候车点。另外一些人从另一个楼门出来,朝宿舍或是对面的餐厅走去。餐厅里,可以见到年轻恋人们隔着塑料托盘拉着手。在公司的一间会议室里,生物信息部门26岁的组长刘心一边坐进沙发,一边说:“这里工作很辛苦,需要注意力高度集中。我们允许谈恋爱,这样很好。”

这家建在旧鞋厂上的深圳工厂是华大基因最大的一处工厂区,刘心是近年来到这里的一小批大学毕业生之一。这个工厂区有两座灰色建筑,一处是厂房,一处是宿舍。工厂区一侧是深圳盐田北山工业区,摩天大楼比肩接踵,公寓楼四处林立,还有几家医院和医疗设备公司;另一侧则是一片刚开发的树木葱茏的山坡,推土机正在平整土地。身材健壮的刘心不苟言笑,但他很高兴自己已经有了女朋友,这样就可以安心工作了。刘心毕业于北京大学生物学专业,2010年前加入华大,当时在基因组研究方面基本没有经验。所谓基因组,是指一个有机体的全部基因信息。现在,刘心已经是所在部门的资深员工。他每天工作12小时,要同时负责多个基因组的测序。他专攻植物类基因组测序,他所在的组目前正在对一个兰花品种进行测序。他们周围的其他生物信息团队在针对动物、微生物、人类和其他任何携带遗传密码的生物体进行基因组筛选。“这里基本上每个人都是刚出学校,相比大多数新来的同事,现在我属于比较有经验的了。”刘心说。

华大基因2003年开始人类基因组图谱测绘工作,如今,它已是世界最大的从事基因测序的商业机构。随着中国大学毕业生队伍急速扩大以至供过于求,华大基因抓住机会,大量录用这些受过良好教育的劳动力。在深圳工厂,有超过3000名平均年龄26岁的员工每天从事准备DNA样本、监控测序仪、拼合无穷无尽的碱基链的工作。DNA中的碱基分为A、C、T、G四种(分别为腺嘌呤、胞嘧啶、胸腺嘧啶、鸟嘌呤),是组成遗传物质的基本成分。


“这是一项大规模的数据分析工作。”36岁的华大基因执行院长王俊(编辑注:现已经离开华大)说。经常穿网球鞋和polo衫的王俊已经在《科学》和《自然》杂志发表了35篇论文,他同时还在哥本哈根大学授课。他说,基因组学是一个新领域,专家要从头开始培养。“我们不需要博士来做这项工作。”王俊说。相反,他认为基因组学最好用传统方法来学习。“你只要把他们放到这里,最好的办法是让他们亲手实践。”

2000年,当国际“人类基因组计划”发表第一份人类基因组草图的时候,人们似乎觉得,科学家势必很快就将破解有关疾病、健康和人类发育的密码。但事实证明,基因组远比人们预料的要复杂得多。科学家们2000年得到的是一份长长的核苷酸清单,它是DNA中决定有机体组成的标志物的结合体。那份草图只是一个清单,而且只有很小一部分可以理解。很快,科学家们就识别出转变成蛋白质的基因组片段,这些片段决定着眼睛颜色等人类特征,但这些片段只占全部任务的1.5%。遗传学家们在描述这件事时喜欢说,他们绘制了一份没有图例的图谱。就在这个时候,华大基因开始涉足这个领域。

华大基因是1999年依托国家资金成立的,当时的任务是牵头参与“人类基因组计划”的中国部分(即“1%计划”)。王俊说,“当时,我们根本没想过什么商业模式;基本上在人类基因组之外,我们没有计划过更多的东西。”王俊是在华大基因早期作为电脑人才引进来的。他指出,中国是参与这个计划的唯一一个发展中国家,虽然华大基因团队在这个已经完成的计划中只参与了“1%计划”部分,但他们在基本没有现成经验的情况下,迅速完成了任务。“连克林顿都感谢我们的参与。”他说。他加入该计划的时候只有22岁,当时在华大基因的两位创始人——45岁的汪建和47岁的杨焕明两位科学家手下工作。

接下来,华大基因给自己提出的挑战是着手进行水稻的测序。水稻的基因组虽然比人类基因组要短得多,但信息量仍然大得惊人。“我们招聘了很多大学生,许多人之前从未参加过任何项目。”王俊说。计划进度排得非常紧,王俊和同事们几乎很少睡觉。“在华大基因,我们就能有这样的疯狂举动,”他说,“我们可以组织起100个人,都是新手,没有任何经验,但我们仍然能把事情做成。”


2002年,华大基因在《科学》杂志上发表了有关水稻计划的论文,再度引起中国政府的关注,虽然这时它是民营企业,但政府仍决定出资。官方机构中国科学院在华大基因的基础上成立了北京基因组研究所,这一荣誉使它获得更多资金支持。不过,作为中科院下属机构,华大基因这时的编制只有90人。华大领导层一直在考虑扩大规模。“我们老板当时想采购更多的测序仪,”在华大工厂行政部门负责公关事务的邓文茜说,“但是,北京不支持。”2007年,华大基因通过深圳市政府解决了这个问题,深圳为华大深圳工厂提供1000万元人民币(按当前汇率相当于160万美元)作为开办费,每年另外再补贴2000万元。公司随后将名称从北京基因组研究所变更为深圳华大基因研究院,并迁址到这个旧鞋厂。

如今,华大业务分成三块:健康服务、农业服务和环境服务。科学家们研究基因组时,实际关注的是个体与个体间、物种与物种之间以及群体与群体之间的基因差异。他们要考虑的是确定有哪些变异与特定性状或疾病有关。

王俊说,破译任何一个基因组都是一项规模宏大的数据工程,目前世界上还没有其他研究机构或营利性基因测序企业拥有华大基因的破译能力。在健康服务方面,华大基因可为全球大学和企业直接提供测序服务,他们可以要求华大基因对某个基因组进行测序,然后将结果发回给他们进行分析。多数情况下,华大基因会以合作方式进行基因组的测序、分析及研究成果的发布。

邓文茜和我碰面的那个上午,我们参观的第一站是工厂顶楼的荣誉室。室内墙壁上挂满了华大基因在《科学》和《自然》杂志上所发论文的复印件。论文主题包括:华大参与的ICGC肿瘤基因组计划、华大在2000个自闭症儿童家庭基因组图谱计划中的工作、对5000对双胞胎表观遗传差异的图谱研究(所谓表观遗传差异,即非由基因变异引起的基因表达方面的差异),还有一项旨在增加“孟德尔遗传疾病”确诊案例的计划。

除了可以将更多的疾病与基因变异联系起来之外,华大基因的研究结果还有可能改变医疗服务机构和政府部门理解和回应突发疫病的思路和方式。华大基因的合作伙伴中包括通用电气医疗集团(GE Healthcare)、默克制药(Merck)和诺和诺德(Novo Nordisk),他们所做的工作将有助于制药企业搞清为什么有些药物对某些人群比对其他人群更有效。2011年5月,华大基因在德国发生严重大肠杆菌疫情期间大显身手。疫情刚一爆发,华大基因立刻开始对汉堡-埃彭多夫大学医疗中心提供的样本菌株的基因组进行拼合。5天之内,华大发布了样本菌株的测序结果,进而通过众包方式对基因组进行组合和分析。将来,华大基因的这些专业技术还可应用于病毒分析。

王俊表示,华大的首要目标是“为基因学服务社会探索途径”。他强调说,华大并非国有企业,所获得的利润被重新投入科研。过去几年,华大的利润一直在稳步上升。2011年,华大公布实现收入12亿元。该公司参与的许多项目都可以看出其以科学创造利润的政策。农业服务方面,华大对它认为具有专利特性的基因组测序进行图谱拼合,并运用这些结果去开发更高级的水稻、谷物乃至鱼类系株。

为实现这一目标,技术人员利用基因信息培育出某些特定性状。邓文茜说,杂交谷物可以提高产量、帮助非洲缓解饥荒。华大培育改良的轻木树可以抵御寒冷气候,从而有可能在中国生长。华大荣誉室的论文镜框旁是一只鱼缸,一条夹杂着灰、绿两色的大鱼在里面游来游去。“这是我们培育的杂交石斑鱼。”邓文茜说,它比普通石斑鱼的生长速度快两倍。华大基因的一本小册子上还说,它的味道也更好。我问王俊,他们的“千种动植物基因组计划”如何确定选择哪些植物和动物做测序时,王俊回答说,“我们从那些更美味的开始。”

华大基因还参加了对地球微生物的测序计划,旨在发现地球各处微生物有机体在功能和进化方面的多样性。(华大已经对超过1000种存在于人体内脏的这类微生物进行了测序。)该公司已进行测序的许多动植物基因组,比如大熊猫以及刘心团队正在进行的兰花,主要是为帮助科学家研究动物性状和进化过程。

与此同时,华大基因还在挺进生物克隆领域,并发明了一种简化技术。这种被称为“手工克隆”的技术能降低成本,从而使得在动、植物研究中进行大规模克隆变得更加现实。截至目前,华大基因已运用该技术克隆了老鼠、羊,还有一只在角落里散发出粉红色光泽的迷你猪。在办公室的一只小展示柜里,立着一只经过轻度干燥处理的小猪标本。邓文茜带着歉意说,其实还有一只更漂亮的标本,被放错地方了。

华大基因正在扩大它的版图。2012年底,它对美国Complete Genomics公司的收购计划已获美国政府批准。Complete Genomics公司位于加州山景城,也是从事商业化基因测序的公司,是华大基因最大的竞争对手。在这项价值1.17亿美元的收购计划获批前,位于圣迭戈的Illumina公司曾在华大之后向Complete Genomics发起收购,它还针对华大的收购计划提出监管方面的质疑。目前,华大基因的测序仪多数购自Illumina,而收购Complete Genomics将使华大获得新的技术渠道。不过,Illumina的首席执行官杰·弗拉特利(Jay Flatley)给出的反对理由是国家安全。弗拉特利在发给Complete Genomics公司的备忘录中警告说,这项交易将使华大基因可以获得美国人的DNA信息,从而有可能带来“国家安全、产业政策、个人识别信息保护及其他方面的问题”。

Complete Genomics公司将拓展华大基因的能力范围,这不仅包括客户群和测序能力方面,还涉及数据存储。Complete Genomics已经建立了自己的遗传信息数据库,这将使华大基因创建云计算平台、从而得以掌握大量基因组数据的努力得到有力补充。

尽管华大基因在不断改善技术,但其最大的优势仍是那些高学历、低工资的分析师们。目前,已有的基因组数据的数量远远超过现有分析师队伍所能完成的工作量。全世界的实验室都需要更有经验、更可靠的生物信息专家——比如刘心这样的人士。


“现在就像美国西部拓荒时期,”哈佛大学遗传学教授、华大基因顾问乔治·切奇(George Church))说,“这是个可能一夜蹿红的领域,新发现的数量成倍增长。”单单一个基因组就包含着巨量信息,而生物信息专家的工作就是对多个基因组的信息进行筛选、比对和测试。尽管最近10年来基因组测序成本已显著下降,但测序过程毕竟离实现自动化还相距遥远。切奇说,诸如23andMe这类对个人提供定制化基因测试服务的公司通常只测试样本的100个性状和疾病类别,也就是整个基因组的1/3000的内容。而华大基因可以完成整套测试,费用大约4000美元。

华大基因拥有的电子测序仪有11台位于深圳,77台在香港,超过66台分布在中国内地其他地区以及海外。这些测序仪外观华丽,像黑白两色的箱子,尺寸略高于操作它们的技术人员。这些仪器不会大量处置完全成形的基因组,而是对片段进行处理,通过测序仪重新合成模板基因链时发出的信号来解读识别每个核苷酸。这些无序的片段需要拼合起来,一旦拼合之后,还需对基因序列进行解译,以便找出特定研究课题需要找到的具体性状或疾病的基因来源。即使有现成的参考基因组作为充分比照,这个过程也很难交给电脑程序去完成。“这样的软件现在基本不存在。”切奇说。

华大基因深圳工厂的楼层布局经过特别设计,以便于基因样本在测序过程中在不同楼层间传递。当样本刚刚到达工厂时(通常是装在试管里),会被先送到四楼,在这里,穿着不同颜色大褂的操作员会准备遗传物质并将它们放大(大褂的颜色代表所要处理的DNA类别)。操作员俯身靠近细小的药水瓶,用注射器将遗传物质分开。他们将DNA样品分离成单链,然后迅速将它们送入被称作聚合酶链式反应(PCR)的化学处理过程。这一步骤将把单个DNA片段复制大约1000万次。载有DNA片段的微生物串珠随后被转移到带有小杯形的纸片,送进位于五楼的测序仪。当测序仪完成程序后,所获得的信息会通过电子手段传输到二楼,也就是刘心的生物信息小组工作的地方。

在一个开放式大房间里,超过1000名科研人员坐在一个个格子间里,盯着一串串电脑编码,对分配给他们的基因组片段进行拼合。刘心所在团队与其他团队略有不同。“你要找到基因变体或是基因组中难以描绘的部分。”他说。除非某个基因组已经有一个斑点被准确识别出来并输入电脑程序,否则,电脑程序本身很难识别出新变体。最近,在兰花测序上,刘心的小组在破译一个具体片段上就遇到了问题。刘心之前正在根据一个兰花参考基因组组合他的那个兰花品种的基因组,但是编码的某些片段与研究人员(以及电脑)此前预计的排列方式有所不同。事实证明,要想将这些片段与某些兰花性状联系起来很困难。他把这种情形称为“异常区域”。

“我们不得不想出办法来分析这个情况,”他说,“它需要我们尝试不同途径,彻底审核那些可能很重要的成套数据,以便判断出为什么在测绘这个片段时遇到麻烦。”研究人员尝试了不同办法,最后发现,这个兰花品种的部分性状是属于杂合性的——基因组中有两个斑点会影响到它们的发育。刘心说,“异常区域”是他这份工作最让人兴奋的地方。


在华大厂区里,如果不是因为个头很高,执行院长王俊在一群毕业不久的大学生中间很难被发现。他不喜欢把华大基因称为工厂,而是更乐意在公司营造大学校园的气氛。除了鼓励员工谈恋爱之外,华大基因还提倡成立各种社团,充分享受业余时间。“周末的时候,我们喜欢去爬山。”邓文茜指着远处的北山说。王俊喜欢打篮球,华大每年都举行篮球锦标赛。王俊所在的团队比赛时总能赢。他们队有很多高个子。“我们怀疑他的团队可能招人的时候就考虑到篮球赛了。”邓文茜咯咯地笑着说。

6点钟一过,当华大基因大部分员工下班之后,宿舍区外的篮球场上很快变得人头攒动。刘心所在的生物信息部门的部分同事围过来看比赛。这个宿舍区资历最老的住客之一太帅帅说,他稍微休息一会,然后还要回去工作。“对我们这些整天待在办公室的人来说,住宿舍更方便。”他说着,牙套并不影响他的笑容。31岁的太帅帅跟刘心一样也是2009年加入华大的,在华大深圳工厂,这已经属于老资格了。他担任负责人的团队利用测序来改善他称为“分子繁育”的过程,这也正是华大基因的石斑鱼项目所采用的过程。太帅帅同时还负责审核来应聘求职的人。

“中国有很多大学,但我们更喜欢招名牌大学的学生,”他说,“要成为华大的一员,意味着你作为科研人员必须有创造性,你必须有团队精神。我们要考虑很多条件——技能,知识,教育背景,还有工作作风。”据太帅帅说,他们发出的录用书很少被回绝。

产生这种吸引力的原因之一也许是华大向员工提供在职学习的机会。据刘心说,如果不是因为进了华大,他可能会在别的地方念研究生。“但那样我就没有机会动手实践了,”他说,“这里的工作基本相当于一个博士项目。”不过,他2013年开始在香港大学进修一个项目,每周只需要请一两天假。

篮球场上的多数员工似乎都参加了华大基因的在职学习计划。有个小组的四个人都还是在校大学生,他们住在华大,正在参加全日制实习。“这里跟我们的大学宿舍一样舒服,”其中一位说,“而且深圳对年轻人来说是个很不错的地方。”

大约6点半,天开始落雨,篮球场的人群迅速散去。太帅帅快步躲进宿舍门口,管理员正在霓虹灯下拖地,员工们排着队购买各种快餐小吃。太帅帅旁边有两三个生物信息部门的人在聊他们的打算。“我想出国,去美国,”一位叫高志博的组长说,“不是去拿博士学位,是想练练英文,还有提高社交能力。”太帅帅很难想象为什么会有人想离开华大。“做科研是我最热爱的事,”他说,“我相信科学无止境。”