谷歌、华大等联手构建临床基因数据共享平台
今年美国人类遗传学协会(American Society of HumanGenetics,ASHG)上,会议发言人表示:基因组学在个性化医疗领域颇具发展前景,而基因组学转化到医学应用主要依赖对大数据分析。
现在越来越多的人进行基因组测序,因此谷歌公司的David Glazer在会议上提出:“我们应当如何将大数据转化应用到各个领域?”
基因组学正掀起一场数据风暴,不仅是测序平台的革新,也掀起了基因突变与疾病关联性研究的热潮。与此同时,一些研究者正致力于构建一个标准以利于临床及组学方面数据的共享。
IBM公司的AjayRoyyuru在会议上指出,每年大约有6000—10000篇癌症相关文章被发表,面对如此多的文章,即便是研究者或者医生及时跟进,也无法完成如此大的阅读量。Royyuru认为“这个问题亟待解决”。他表示,解决这种问题的关在于,综合客观并快速的处理这些已发表研究。此外,他还表示,必须清晰明了的表示因果关联。他和IBM的同事正利用大型计算机处理这些文章,总结文章中的发现与跟疾病之间的关系。
通过Royyuru和其同事开发的精密肿瘤研究流程,病人的测序数据会传到Watson系统,然后数据将与PubMed、国家癌症中心交换式数据库、DrugBank等数据库进行比对。通过比对,Watson系统输出一个疾病概念模型,并给出一些治疗方案。Watson系统同时可以提供各种医疗方案的选择原因,这些信息可供专家研讨会上做参考。Royyuru表示,整个分析流程加输出报告大约需要10分钟。此外,Royyuru还表示,Watson系统也可以记录病人选用的医疗方案,以及病人对该方案的临床反应。
目前IBM以这个流程为雏形,跟纽约基因组中心进行合作,并计划明年进行测试。
除了Watson系统外,以计算机科学为支撑的其他的数据技术处理技术也可用来分析基因组数据。
Glazer指出,谷歌在大数据处理上是很有经验的,比如YouTube网站每分钟更新100小时的视频,Gmail用户数目是美国博士人数的150倍。Glazer和他的同事利用1000份基因组数据对他们研发的数据分析系统(类似Dremel和BigQuery系统)进行测试。对这1000份数据进行分析的第一步是构建矩阵,这个过程占用60个八核计算机,耗时2小时。
Glazer表示,不断发现研究中的问题是创新的必经之路。另外,他表示基因组学的个性化医疗应用,从目前“手工化”到“工厂化”的转变需要确立一个标准。全球基因组和健康联盟(由谷歌、华大基因、加拿大基因组研究中心、美国国家卫生研究院、惠康基因会共同组成)正在开发数据共享的标准形式。Glazer相信,这些努力必将引领数据探索和分析的革新。