大数据推动基因测序产业化

标签:大数据基因生命健康

访客:26373  发表于:2014-07-31 01:49:29

        大数据推动基因测序产业化

在今年2月叫停所有基因测序后,630日,国家食药监总局发布公告称,经审查,批准两款二代基因测序仪和两款检测试剂盒注册。这意味着基因测序临床应用重新启动。基因体检是当前基因测序临床应用最主要的形式。DNA 是生物的遗传物质,基因是具有遗传效应的基本DNA 单位,基因组则是所有基因的总集,包含全部DNADNA 是长链聚合物,由以ACGT为符号的四种脱氧核苷酸组成。如果将基因组视为一部书,那么书的所有章节都是用ACGT 四个字母写成。基因组测序就是测定DNA 分子中ACGT 的排列顺序,相当于将遗传信息以四字母组成的文本形式读出。人类基因组测序已于2005 年完成,科学界也已在人类基因组中发现大量与健康相关的基因。基因体检时首先需提供唾液,采用生物学方法可提取脱落在唾液中的细胞中的DNA, 采用基因测序仪测得基因组中ACGT 的排列顺序,并生成数据文件。再将该数据文件与已知数据比对,最后在体检报告中指出受体检者基因组中与健康或疾病相关的基因,并提供健康和医疗建议。第二代测序技术将每基因组测序成本从2001年的9526万美元下降到1000美元。

2007 年成立的美国23andMe 公司是最早的基因测序互联网公司,由谷歌投资,创始人沃西基是谷歌布林的妻子。体检者在试管里吐一口唾沫,盖上盖子,寄往23andMe。两周后会收到邮件提示,你的基因检测结果已经准备好。用户登录,便可看到自己基因组上超过100万个位点的基因信息和所做的分析,包括对259 种疾病患病率的风险预测、祖先血统分析和药物的反应预测等。23andMe 目前已有40用户,测序价格也已从创业时的999 美元降为99 美元。23andMe 被称为“个人健康医疗领域的谷歌”。在解决了测序成本问题以后,基因测序服务普及的最大瓶颈在于数据处理。完全测序的人类个体基因组数据量为100GB1000GB,压缩后数据量约为3GB。科学界已知有3000 个基因与特定疾病相关,大约每5 天发现一个新致病基因,对已有致病基因的认识也在不断深化。数据量巨大、数据复杂、数据更新频繁,使得数据存储、解读及共享已经成为基因测序产业面临的最大挑战。而大数据和云计算则成为突破数据处理瓶颈的利器。

2011 年,谷歌投资美国DNANexus公司,谷歌将和 DNANexus一道,利用谷歌的云计算和大数据平台,打造巨大的开放式的DNA 数据库,而美国国家生物技术信息中心的DNA 数据也将并入其中。有“基因测序界苹果”之称的美国基因测序厂商 IIIumina 2012 年推出基因测序云计算平台——BaseSpace。每用户可免费存储1TB 测序数据、数百次运行结果的数据,用户可根据需要运行云端的基因数据分析应用程序,包括开源和第三方应用程序。在国内,2012 年华大基因推出了第一个自主开发的云服务品——EasyGenomicsTM。该平台集基因组学领域内常用的和华大基因特有的数据及参数为一体,结合云存储和高性能计算技术,能够以更低的成本、更高的效率完成大量的基因数据处理及分析。华大基因目前已经拥有212TFlops 的峰值计算能力,总内存容量已达到37.2TB,总存储能力已达到17PB。老话说“上医治未病”,意思是最高明的医生擅长防病。当癌症等重大疾病突然降临,人们往往哀鸣:“为什么是我?”基因测序服务能够为个性化健康管理提供科学依据。新一代测序技术与大数据、云计算共同发力,将使大众“治未病”成为可能,一个庞大的基因测序市场即将形成。

(本文系计算机世界/经理+独家原创,作者《计算机世界》传媒集团副总编 老鬼阿定,拒绝转载)

评论(0)

您可以在评论框内@您的好友一起参与讨论!

<--script type="text/javascript">BAIDU_CLB_fillSlot("927898");