大大加速基因组分析的新软件

时间:2016年2月24日
来源:生物通

编辑推荐:

最近,新加坡科技研究局(A*STAR)基因组研究所(GIS)和生物信息学研究所(BII)的科学家带领的一个国际研究小组,开发出了一种可以加快基因组分析的软件——SIFT 4G(SIFT for Genomes)。这项研究结果发表在《Nature Protocols》杂志。

广告
   X   

生物通报道:最近,新加坡科技研究局(A*STAR)基因组研究所(GIS)和生物信息学研究所(BII)的科学家带领的一个国际研究小组,开发出了一种可以加快基因组分析的软件——SIFT 4G(SIFT for Genomes)。这项研究结果发表在《Nature Protocols》杂志。

基因组测序可帮助我们提高对于人类疾病的认识,让科学家了解其基本的生物学机制。它也对于推动全球精准医学起到了关键作用,一种疾病或患者的基因档案,可在为患者确定预后和治疗策略的时候,提高临床决策,从而为提高医疗效果铺平了道路。

而技术进步已经产生了大量关于“人体和其他生物”的数据,科学界所面临的一个问题在于,如何很好地分析如此大量的数据。

根据其前身的同样原则,SIFT 4G可以在更高的速度上进行基因组预测。一旦预测准备好,它们就被存储在数据库中,并准备用于基因组分析。图形处理器(GPUs)——而不是中央处理单器(CPUs)的使用,可使预测时间更短,并能够为大量生物构建数据库。SIFT 4G已经为200多种生物提供了预测,从而可以为更大的研究群体服务。

之前,为SIFT预测创建一个数据库,科学家要花25天的时间、在个10个CPUs上,现在,使用SIFT 4G,在一个GPU上、只需要三天的时间,就能建好。通过使用GPU而不是CPU,一个蛋白质的加工时间可从4.2分钟大幅减少到2.6秒。一旦预测准备好,研究人员就可以使用数据库,在短短五分钟的时间内分析基因组。

基因组分析效率的提高,将使研究界能够推进科学技术的发展,开发造福人类健康的技术。BII和GIS开发的生物信息学和基因组学能力,使这两家研究机构在快速、准确解释生物数据以了解基因功能、它们之间的相互作用以及疾病的发展中,发挥了关键的作用。

除了提高医疗效果这个明显的好处之外,基因组测序也在农业领域以及基础研究,带来了重大的进展。对相同生物的不同品种或品系进行测序,可使我们对其显著特性的遗传基础有所了解。

例如,目前已对3000多个水稻基因组进行了测序,来解释某些性状(如耐冷性和作物品质)背后的遗传多样性。这些类型的调查,可以产生巨大的影响,因此有人估计,测序市场在农业和其他行业的应用价值将超过70亿美元。基础研究也得益于基因组测序的兴起;例如,果蝇的基因组序列,已被用于更好地理解进化过程的基础。

该研究的通讯作者是GIS的Pauline Ng博士——15年前,她与其博士生导师、Fred Hutchinson癌症研究中心(FHCRC)的Steven Henikoff和Jorja Henikoff教授一起研发了SIFT运算法则。Ng博士说,“我很激动,因为SIFT 4G将使研究生物体突变的研究人员能够更快地有所发现。现在,研究生物体(基因组已经测序)遗传变异的任何研究人员,都可以用SIFT 4G来表征他们的错义突变。其对许多基因组的扩展功能,将使世界各地的研究人员能够使用它作为不同项目的资源。”

BII执行董事Frank Eisenhaber博士说:“新的算法和处理器架构,对于处理生物数据库中收集的大量数据来说,是必不可少的,这往往超过了计算机性能的进步。这仅仅是生物信息学和计算生物学可以被用来推进生物过程的研究和理解的一种方式。”

GIS执行主任Ng Huck Hui教授说:“时间是至关重要的,尤其当涉及到研究领域的时候更是如此。我们必须能够很快适应,以跟上不断变化的医疗保健和生物医学前景;SIFT 4G是我们这样一种强大的工具。它将加快基因组分析的时间,只会为研究群体和广大公众带来益处。”

联川生物人类转录组测序升级,买三送一,仅限前100位,快来参与>> >

现在基因组测序成本越来越低,测一个基因组一个课题组都能承担下来,但是后续的基因组信息挖掘可不是容易的事。在这之前,就相继报道过多种新的基因组分析方法。

超级计算机大大促进基因组快速分析
当今,随着基因测序变得更便宜和更快,研究人员面临着数据分析的瓶颈。在2014年2月12日的《Bioinformatics》杂志上发表的一项研究中,芝加哥大学为首的一个研究小组,借助于世界上最快的、用于生命科学研究的超级计算机——Beagle,可以从根本上加速基因组的分析,从而突破了这种瓶颈。Bioinformatics:超级计算机大大促进基因组快速分析

新型DNA分析策略助力土壤宏基因组研究
密歇根州立大学、美国能源部联合基因研究所和伯克利国家实验室的研究人员,在2014年3月10日的《PNAS》发表了迄今最大的土壤DNA测序工作。研究人员使用一种“数字归一化”技术,使土壤宏基因组学研究所需的计算减少了2到200倍。PNAS:新型DNA分析策略助力土壤宏基因组研究

大大降低基因组分析时间的新工具
在英国的一项合作研究中,研究人员开发出一种新的生物信息学方法,能够对多个基因组物种自动设计引物,从而大大减少了分析的周转时间。相关研究结果发表在2015年4月的《生物信息学》(Bioinformatics)。大大降低基因组分析时间的新工具

基因组数据分析的“金标准”
2015年五月十八日,美国安大略癌症研究所、俄勒冈健康与科学大学等研究机构,在《Nature Methods》发表了ICGC-TCGA-DREAM Somatic Mutation Calling (SMC) Challenge的第一批结果。这些结果为研究人员提供了一个重要的新基准,有助于定义识别癌症基因组中体细胞突变的最准确的方法。基因组数据分析的“金标准”

复杂、大型的基因组分析将更简单
2015年6月,欧洲生物信息学研究所(EMBL-EBI)的研究人员开发出一种新的方法,可研究多重基因变异对不同性状的影响。这种新算法发表在最近的《Nature Methods》杂志,能够同时对多达500,000个人和许多特征,进行遗传分析。复杂、大型的基因组分析将更简单

表观基因组和转录组数据分析新平台
2015年八月七日在国际著名学术杂志《Genome Biology》发表的一项研究中,来自美国辛辛那提大学医学院的研究人员,提出了一种BioWardrobe平台,可让用户使用一种方便生物学家的Web界面,存储、可视化和分析表观基因组学和转录组学数据,而不需要专业的编程知识。表观基因组和转录组数据分析新平台

华人学者开发基因组分析新工具
来自美国西奈山伊坎医学院的科学家,开发和公布了两种新的数据分析软件,可以帮助研究人员以更高的效率和精确度,识别疾病的遗传触发因子。这些新的分析工具分别发表在11月30日的《PLoS Computational Biology》和11月25日的《Scientific Reports》。华人学者开发基因组分析新工具

超快速的基因组分析工具
近年来,测序市场呈现出百花齐放的美好局面。这使得测序的成本不断下降,但同时也带来了数据分析的难题。经济又高效地处理全基因组测序的数据,相信是每个人的愿望。如今,一个开源的基因组分析平台也许能满足你的愿望。Nature Methods:超快速的基因组分析工具

(生物通:王英)

生物通推荐原文摘要:
SIFT missense predictions for genomes
Abstract: The SIFT (sorting intolerant from tolerant) algorithm helps bridge the gap between mutations and phenotypic variations by predicting whether an amino acid substitution is deleterious. SIFT has been used in disease, mutation and genetic studies, and a protocol for its use has been previously published with Nature Protocols. This updated protocol describes SIFT 4G (SIFT for genomes), which is a faster version of SIFT that enables practical computations on reference genomes. Users can get predictions for single-nucleotide variants from their organism of interest using the SIFT 4G annotator with SIFT 4G's precomputed databases. The scope of genomic predictions is expanded, with predictions available for more than 200 organisms. Users can also run the SIFT 4G algorithm themselves. SIFT predictions can be retrieved for 6.7 million variants in 4 min once the database has been downloaded. If precomputed predictions are not available, the SIFT 4G algorithm can compute predictions at a rate of 2.6 s per protein sequence. SIFT 4G is available from http://sift-dna.org/sift4g.

 

生物通微信公众号
微信
新浪微博


生物通 版权所有