我国首个国家基因库运营在即 将成全球最大生命信息平台

来源:南方日报

2016-09-19 17:33

据南方日报报道,9月22日,位于深圳大鹏新区的中国首个、全球第四个国家级基因库将正式运营,这也是我国唯一获批筹建的国家基因库。这个外观仿若巨大梯田的建筑非常具有标志性,面朝大海,三面环山,与外界相对独立,每一层建筑都倚着山体的自然坡度建设,有山体结构的支撑,与自然融为一体。(内景请直接看第三页)

深圳国家基因库主体工程已建成,投入使用在即。(华大基因杜工拍摄)

记者9月6日首次进入国家基因库采访,基因库内已摆放数十台用于储存样本的冰箱、150台我国自主研发的桌面型测序仪,数据中心也准备就绪,未来,这里将储存全球生物样本、生物信息数据,而且将依照相关规则开放样本、数据资源,成为一个公共服务平台。

据国家基因库主任、华大农业集团董事长兼总裁梅永红介绍,国家基因库将以生物资源为依托,形成从资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用,应用方向包括人类健康、新型农业、物种多样性及生态环境保护等。

国家基因库执行主任、华大基因研究院院长徐讯告诉记者,国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一,包括可访问数据量和数据存储能力是世界第一,可访问样本量和样本存储能力也是世界第一。

“大并不是基因库的目标,我们看重的是真正将资源用起来,不仅促进科研,也要促进产业转化。”徐讯表示,国家基因库希望通过大平台的力量,汇聚更多科学家、企业界人士共同参与基因科学的研究与开发。

国家基因库已存1000万份样本

深圳国家基因库是继美国、欧洲、日本之后的第四个国家级基因库,但它与另外三个数据库以保存数据为主要功能不同,不仅源源不断产生数据,而且更加注重对于数据的研发、利用。“我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。”

站在国家基因库六楼的露台,可以看到绿色的山林和不远处的海湾,群山环抱之中有些幽静。5年前,这里还是一派自然风光。2011年,国家发展改革委、财政部、工业和信息化部以及国家卫生和计划生育委员会四部委批复,同意深圳国家基因库组建方案,建设生物信息数据库和生物样本资源库,打造具有国际一流水平的国家级基因库。

深圳国家基因库主体工程已建成,投入使用在即。

最近几天,国际基因库的工作人员陆续从大约20公里外的华大基因总部迁往这个崭新的建筑。

“这里的气温比深圳市区低2℃左右,负氧离子浓度比市内高很多。”徐讯介绍说,国家基因库的占地面积超过5万平方米,建筑总面积11.6万平方米,即将投入使用的Ⅰ期建筑面积4.75万平方米,还将有二期、三期建设。

来到五楼,参观者们可以隔着玻璃看到数十台国产品牌冰箱,温度接近-80℃,每台冰箱可以储存十几万个样本。这只是样本的保存方式之一。据徐讯介绍,国家基因库为样本提供了四种选择,分别是4℃冷库、-20℃冷库、-80℃冷库和-200℃液氮储存,储存温度越低,成本越高,不同的样本选择不同的“居住场所”。

一个值得关注的细节是,国家基因库与我国第一个进口LNG(液化天然气)接收站——深圳大鹏LNG接收站相距不远,这个已经安全运营10年的接收站也是国内最大规模的LNG接收站,基因库可以利用LNG气化过程中产生的大量冷能,用于样本的冷却等,更加经济、环保。

目前,国家基因库已存储众多生物资源样本,一些样本正在陆续从原来分散储存的地点前往基因库,目前存储总量达1000万份。

除了实体样本,国家基因库的另一宝贵资源是看不见、摸不着的数据。基因库三楼摆放着华大基因自主研发的150台BGI-Seq500基因测序仪,以及一台造价2000万美元的Revolocity超级测序仪。徐讯说,这些价值数亿元的设备,未来将每天产生大量的数据,通过四楼的数据中心以及与基因库合作的云平台,面向全球的科研机构、企业。

深圳国家基因库是继美国国家生物技术信息中心(NCBI)、欧洲生物信息研究所(EBI)、日本DNA数据库(DDBJ)之后的第四个国家级基因库,但它与另外三个数据库以保存数据为主要功能不同,不仅源源不断地产生数据,而且更加注重对于数据的研发、利用。

“我们希望打造中国乃至世界最大的生物信息数据中心,像是生命健康数据领域的谷歌。”徐讯告诉记者,国家基因库已实现对基因信息数据总量达60PB的访问支持,在9月22日正式营业当天,将有5PB的数据正式对外发布,提供数据检索和查询功能。

60PB是什么概念?以一部电影500MB计算,60PB(1TB=1024GB,1PB=1024TB)相当于1.28亿部电影,一个人一天看一部电影需要35万年才能看完。

基因“国库”比银行金库更宝贵

在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多的基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。

我国国家基因库的建设虽晚于发达国家,但它相当于国外多个样本库、基因库的集合,既有保存动植物、微生物和人类组织细胞等样本的“湿库”,也有汇集人类各种生物信息的“干库”,是全球最大的综合性基因库。

梅永红告诉记者,国家基因库的主要功能是“三库两平台”,三库即生物信息数据库、生物样本资源库、生物活体库,两平台即数字化平台、合成与基因编辑平台,这是国家基因库作为一个国际级平台应当具备的功能。

“国家基因库是真正的‘国库’,比银行的金库还要宝贵。”梅永红告诉南方日报记者,在农业时代,一个国家拥有的耕地越多优势越大;在工业时代,拥有的石油、矿产等能源越多优势越大;而在生命时代,拥有更多的基因资源同时能对基因资源进行认知和利用,则意味着更大的优势。

梅永红举例说:“比如精准医学恰恰是建立在对人和跟人相关的外源性生物物种认知的基础上,要通过基因测序来了解遗传规律、医学范式,这时能否拥有更多基因资源、能否掌握更多遗传规律就非常关键,未来精准医学的发展和竞争某种程度上取决于我们具有的基因资源以及认知基因资源的能力。”

然而,在国家基因库建成前,我国每年产出的大量基因数据都存在国际三大数据库——NCBI、EBI、DDBJ中,在基因数据已成为战略资源的现在,国内不能保存我国独特的基因数据,这本身就是一种风险。

徐讯坦言:“以往也有一些人说华大基因的数据不共享,但是,共享这些数据需要基础设施的投入,单靠华大的力量是做不了的,还需要国家基因库这样的平台。”国家基因库除了作为一个“国库”来收集、保存生物样本资源和生物信息数据,还要使这些资源得到应用,需要将样本进行数字化、对数据进行解读、分析、合理地开放。这也正是华大基因的优势。华大基因长期以来与国内外各类科研机构、组织的合作有利于其充分利用国内外资源,让资源充分得到共享,推动科研和产业的发展。

在梅永红看来,这也是国家基因库交由华大基因来运营的重要原因。

“我们希望搭建起基因资源挖掘的基础性支撑平台,形成‘生命密码’的存、读、懂、写、用能力于一体,聚焦生物医药、生物农业、微生物和海洋生物等领域,极大地缩短基础科研到科技成果转化应用周期。”梅永红说,国家基因库不仅要获得更多基因资源,对基因资源进行数字化、研发利用,还要与国内外机构开展合作,是一个浩大的系统工程。

打造全球“朋友圈”

国家基因库将有序与国际上现有的三大基因库开展数据交换与共享,形成全球联盟体系,推动国家基因库向国际基因库转变,支撑引领生物大健康产业和生物经济快速发展。

在北冰洋上的挪威属地斯瓦尔巴特群岛(Svalbard),坐落着一个世界末日种子库(Svalbard Global Seed Vault),储存着来自世界各地数十万份植物种子的“备份”,因此被叫做“末日粮仓”“植物诺亚方舟”。

深圳国家基因库想象图

9月22日,国家基因库将宣布一项与挪威世界末日种子库的合作,双方将打造一个新的“入口”,让更多数据资源为全球所用。

开放合作,是国家基因库在组建和运营过程的主导观念之一。“国家基因库是一个开放平台,无论未来我们如何运营基因库,拥有的资源总是有限的,我们希望通过更好的机制,让大自然馈赠给人类的基因资源能被我们充分地认知和利用。”梅永红介绍,华大基因本身就是一个开放平台,与国内外机构有长期合作,国家基因库团队一直在与国内外机构联系和合作并取得不少进展,未来国家基因库一定会超越国界,成为全球范围内极具影响力、形成更多资源聚集的机构。

2014年8月,国家基因库主导的E-Biobank资源信息共享平台已经正式上线。它承担生物界“牵线人”的角色,为资源申请方(有资源需求的科研团队)和资源提供方(有样本资源的团队)提供了一个“相识”的平台。在这个网站的主页上显示着国家基因库的样本总量、样本库总量、疾病种类、物种数量等,研究人员可以检索、查询样本信息、申请使用,资源持有者也可以共享自己的样本信息,仿佛一个生物界的淘宝。

梅永红说,大资源、大平台、大合作意味着大数据的自然派生,多年来华大基因通过拥有大数据产生大科学,一年能“玩”出几十篇论文,华大基因的农业、医学服务也都是大科学衍生出来的。“掌握大数据,在形成对基因、遗传规律认知的基础上,对农业、健康领域的业务布局奠定了重要的科学基础。”

据介绍,国家基因库也将有序与国际上现有的三大基因库开展数据交换与共享,形成全球联盟体系,推动国家基因库向国际基因库转变,支撑引领生物大健康产业和生物经济快速发展。

目前,国家基因库已与国际生物和环境样本库协会(ISBER)、全球生物多样性联盟(GGBN)、挪威世界末日种子库、人类基因变异组计划(HVP)、中国科学院海洋研究所、中国科学院昆明动物研究所、北京重大疾病临床数据和样本资源库、国家超算深圳中心等100多家国内外科研机构、行业组织建立了战略合作关系,在人类健康、生物多样性、生物进化机制等方面开展了合作研究。

■焦点

国家基因库为何选址大鹏?

据国家基因库相关负责人介绍,基因库选址主要考虑三个因素。一是方便利用临近的LNG(液化天然气)码头气化过程中产生的大量冷能,用于冷却样品,节能环保;二是国家基因库的主体建筑是倚山体的自然坡度建设的,每一层都相当于是第一层,都有山体结构的支撑,稳固性非常好,可以摆放大型设备。三是深圳正在全力推进“东进战略”,将在深圳东部的大鹏半岛规划建设国际生物谷,并将其打造成为国际领先的生物科技创新中心,国家基因库是大鹏新区的重要产业基础设施,有助于生物产业提升创新能力。

国家基因库对产业有何影响?

“国家基因库不仅要形成数据,还要对数据进行分类、开发利用,会衍生出很多服务和机构,有很多机会。”梅永红告诉记者,国家基因库是一个公共服务平台,将提供多种公共产品和服务,需要与众多机构联合,与此同时,该平台也会按照市场机制衍生出一些产品和服务。

此外,国家基因库不仅是生物样本资源和生物信息数据的储存、利用平台,也将是一个科普平台。梅永红表示,希望未来能有更多的公众走进国家基因库,而且能与科学家进行更多的对话。社会公众将可以通过相应申请程序进入国家基因库参观。

深圳国家基因库主体工程已建成,投入使用在即。

■专访

专访国家基因库主任梅永红

基因库将是具有孵化功能的开放平台

南方日报:国家基因库为何会由华大基因组建和运营?

梅永红:我刚来华大的时候也曾经思考这个问题:为什么一个国家级平台要交给华大?第一,华大基因是全球最大的测序机构,建国家基因库并不仅仅是收集和保存基因资源,更要得到应用,需要有数字化的过程,这恰恰是华大基因的优势。第二,华大从1999年创立以来,拥有的基因数据是全球最大的,拥有的人类基因组数据一度占到全球的近50%,而且拥有超过70%的全球农业基因组数据。华大基因拥有的这些数据也是国家基因库特别是数据库中非常重要的资源。第三,华大基因作为一个民办官助的新型研究机构,在利用国内外资源方面比体制内的机构具有更好的条件,能让资源得到充分共享。

最初把这样一个平台交给华大组建和运营,是基于中国相关领域的发展态势以及过去科研平台存在的问题而形成的决策,我认为是非常开明、非常有远见的决策。

南方日报:据报道,国家基因库一期工程投资7.8亿元,资金来源是怎样的?

梅永红:其中国家和深圳市投入4个多亿,华大配套约3.6亿。为什么华大能投入这么多?华大和很多企业不一样,很多企业是先研发技术,然后把技术变成产品卖出去。但华大不是为赚钱而存在的,而是要在生命科学时代实现一个大目标,包括让每个人活得更健康,“消灭千种疾病、实现百岁健康”。

实现这个目标不能空谈,要有大资源、大平台,要把资源数据化,还要充分开展国际合作。华大自身现在已经按照这个路子走过来了,拥有大数据就能产生大科学,通过充分的国际合作、海量的数据能够衍生出大科学。华大的农业、医学服务都是大科学衍生出来的,通过掌握大数据形成对基因、遗传规律的认知,为农业、健康领域的业务布局奠定了重要的科学基础。

南方日报:国家基因库在整个产业链的作用是什么?华大基因的产业化收入能否支撑在科研上、国家基因库上的大手笔投入?

梅永红:国家基因库是一个公共平台,基因库进行资源的集聚和数据化一定需要技术和产业支撑。就数据库来说,不仅要形成数据,还要对数据进行分类、开发利用,衍生出商业领域的机构和服务,孵化出按照市场运作的产业体系,所以我确信基因库建成后在基因资源的存储、解读、开发和利用过程中能衍生出很多的产业方向。

另外,生命科学领域的科研和产业化工作是一个浩大的系统工程,不是华大一家机构能完成的,一定要众多机构联合。国家基因库的运营并不意味着华大基因把所有的任务都包了,比如种质资源,无论华大基因做多大的努力,也不可能把中国所有人、动物、植物、微生物资源都聚集在国家基因库,但它能为建立各类基因库提供标准,提供一种模式。我们也期待国家基因库成为一个类似孵化器的平台,让更多新模式走出来,利用这个平台提升中国在生物科技领域的能力。

人们评判一个机构应该看到它的成长性,超越传统以资产、当前盈利作为评判标准的思路。在研发投入上,上世纪90年代完成人类基因组草图需要多个国家科学团队10年的努力、30亿美元的投入,现在1周时间、1万美元就可以完成一个人的基因组框架图绘制,华大希望未来用1天时间、1000元人民币就完成这样的工作。(南方日报记者 马芳 陈熊海)

延伸阅读

中国首个国家基因库为什么建在深圳?

文章来源:南方会微信公众号(nanfanghui shenzhen)

5年前,国家发改委批复同意深圳依托华大基因研究院组建国家基因库,这是中国第一个、全球第四个国家级基因库。再过半个月,9月22日,位于深圳市大鹏街道下沙片区“禾塘仔”地块的国家基因库将正式运营。

昨天(9月6日),小编和几位来自京沪穗的同行们提前探营,第一次走进了这个梯田形状的国家基因库。这里不仅能看山、看海,还设有咖啡厅,跟我想象中可大不一样。

先来一张航拍图看看外观:

(华大基因杜工拍摄)

为什么采用梯田的设计理念?这栋与周围环境融为一体的绿色建筑与外界相对独立,将基因库功能、历史文化与原有优美自然环境相融合。

国家基因库所处的深圳大鹏新区,可以说是一个“生态岛、生物岛、生命岛”,东西涌海滨、杨梅坑、大鹏半岛国家地质公园都在大鹏。深圳国际生物谷也位于大鹏,该生物谷计划打造为国际领先的生物科技创新中心、全球知名的生物产业聚集基地。

华大基因总部位于盐田区,距离国家基因库约半小时车程。

国家基因库占地面积超过5万平方米,建筑总面积11.6万平方米。其中Ⅰ期建筑面积4.75万平方米,二期还在规划中,未来还有三期。

一进大门是二楼,“国家基因库”几个大字是用木头制成,体现了基因库三生(生态、生产、生活)的设计理念。这一层设有多功能厅和展厅。据说这里未来也将承担科普教育的功能,社会团体预计可通过相关申请程序进入参观噢。

三楼摆放着华大基因自主研发的150台BGI-Seq500基因测序仪,以及一台造价2000万美元的Revolocity超级测序仪。这些价值 N个亿 的设备,每天将产生大量的数据。

四楼是机房。

五楼是样本库,还设有一个咖啡厅。

一到这层,我们首先看到的是很多台海尔冰箱,温度接近-80℃。

国家基因库执行主任、华大基因研究院院长徐讯告诉我们,国家基因库为样本提供了四种选择,分别是4℃冷库、-20℃冷库、-80℃冷库和液氮。

这次虽然没能看到液氮储存的样本,不过以前我此前在丹麦见过一次很特别的,所以也没有遗憾啦。有兴趣的朋友可以戳这里:全球最大精子库50%客户竟是单身女性。

咖啡厅充分利用自然采光,设计灵感据说来自洋葱的细胞壁。你能看出来吗?

六楼是办公区域,风景怡人。站在露台上能看到远处的大海。未来将有数百人在国家基因库工作,这样的工作环境不错噢。

参观完这个神秘的国家基因库了,我们再来了解一下它的功能吧。

国家基因库于2011年10月由国家发展改革委、财政部、工业和信息化部以及国家卫生和计划生育委员会四部委批复,并由深圳华大基因研究院组建及运营。这是中国第一个也是唯一的一个获批筹建的国家基因库,其重要性不言而喻。

国家基因库由生物信息数据库和生物样本资源库组成,已经实现对基因信息数据总量达60PB的访问支持;制定基因信息数据采集、储存和管理相关标准和技术规范;1000万份可溯源性生物样本的存储能力,研究制定生物样本采集、储存和管理的相关标准和技术规范。

目前,世界上有3个公认的成型基因库,分别是美国的NCBI、日本的DDBJ、欧洲的EBI。这些基因库的主要功能是承载生物学研究产生出来的数据,特别是跟序列相关的核酸信息数据。

中国国家基因库与上面三个基因库有许多不同。。国家基因库创新性提出采用生物资源样本库(湿库)和生物信息数据库(干库)相结合的建设模式,收集全球生物物种和样本并进行储存,且把这些资源信息数字化,使之能够支撑科研和应用。

这一优势使得国家基因库成为既有数据、又有实体的新一代生物资源库、信息库、知识库和工具库,与传统的“干湿分离”的基因库相比,具有极强的竞争优势。

还有一点很重要的就是,国家基因库不仅注重“存”,也非常注重“用”。

国家基因库构建的生物样本和大数据存储、管理、认证、基础应用体系,正有序与国际权威数据库开展数据交换与共享,形成全球联盟体系,支撑引领生物大健康产业和生物经济快速发展。

目前,国家基因库与挪威世界末日种子库(据说9月22日有合作项目要发布!) 、国际生物和环境样本库协会(ISBER)、全球生物多样性联盟(GGBN)、人类基因变异组计划(HVP)、中国科学院海洋研究所、中国科学院昆明动物研究所、北京重大疾病临床数据和样本资源库、深圳超算中心等100多家国内外科研机构、行业组织建立了战略合作关系,在人类健康、生物多样性、生物进化机制等方面开展了合作研究。

最后,我们再来探讨这个问题:中国首个国家基因库为什么建在深圳?我国有那么多科研机构、大学、国有企业,为什么是华大基因研究院来组建和运营这样一个国家级平台?

国家基因库负责人、华大农业集团董事长梅永红曾在科技部政策法规与体制改革司司长、山东济宁市市长,对体制内外都有了解。他认为:

首先,华大基因是全球最大的测序机构,建国家基因库并不仅仅是收集和保存基因资源,更要使它得到应用,需要有数字化的过程,这恰恰是华大基因的优势。

其次,华大从1999年创立以来,拥有的基因数据是全球最大的,拥有的人类基因组数据一度占到全球的近50%,而且拥有超过70%的全球农业基因组数据。华大基因拥有的这些数据也是国家基因库特别是数据库中非常重要的资源。

第三,华大基因作为一个民办官助的新型研究机构,在利用国内外资源方面比体制内的机构具有更好的条件,能让资源得到充分共享。

梅永红说:“最初能决策把这样一个平台交给华大,应该是基于对中国现在这个领域发展的态势,以及我们过去在这种科研条件或者科研平台方面存在的问题而形成的决策。我认为这是非常开明的决策,也是非常有远见的决策。”

据介绍,国家基因库将以生物资源为依托,形成资源到科研到产业的全贯穿、全覆盖模式,实现大资源、大数据、大科学、大产业的整合与应用。应用方向包括人类健康、新型农业、物种多样性及生态环境保护等。

小编了解到,国家基因库是全世界最大的综合性基因库,1期建成后,综合能力世界第一,包括可访问数据量和数据存储能力是世界第一,可访问样本量和样本存储能力也是世界第一。(马芳 陈熊海 鲁力)

责任编辑:梁福龙
基因组 华大基因 基因 深圳 大数据 广东
观察者APP,更好阅读体验

布林肯来华谈的怎么样?是否不虚此行?

“看看,这就是美国的警察”

习近平会见布林肯:中美应彼此成就,而不是互相伤害

“宁愿关闭在美业务也不卖”

王毅见布林肯,对美方提出三个“不要”