助力人类基因功能预测的搜索引擎

时间:2015年3月3日
来源:生物通

编辑推荐:

人类基因组计划在十多年前就已结束,但大约三分之一的基因组仍然是神秘的,功能还是未知的。最近,美国斯坦福大学医学院的研究人员开发出一种比较搜索引擎,利用人类和其它物种的基因之间的进化关系,来帮助确定人类基因功能。

广告
   X   

生物通报道:人类基因组计划在十多年前就已结束,但大约三分之一的基因组仍然是神秘的,功能还是未知的。最近,美国斯坦福大学医学院的研究人员开发出一种比较搜索引擎,利用人类和其它物种的基因之间的进化关系,来帮助确定人类基因功能。延伸阅读:Nature子刊:加速功能性DNA发现的新计算方法

化学和系统生物学主席Tobias Meyer教授说:“在人类基因组测序之后,科学家们认为能在很短的时间内知道所有基因的功能,结果并不是那么容易,在真正利用全基因组信息之前,我们仍然处于一种停滞的状态。”

绘制人类基因组的功能,就像完成一幅巨大的拼图。这样的地图,被称为“相互作用组(interactome)”,了解一个基因的功能就有助于识别该基因在拼图中的位置。

研究生Gautam Dey说:“确定基因的功能对于医学是非常重要的,因为基因之间如何相互作用影响着疾病的发展。”

搜索引擎依赖于来自一个国际数据库的“大数据”,该数据库包含数百个物种的基因组序列,并可通过一个网页免费向公众开放。该网页于二月十二日上线,同期在《Cell Reports》发表的一篇论文描述了映射基因功能的研究方法。Dey是该论文的第一作者,Meyer是论文资深作者。

搜索引擎网址为http://web.stanford.edu/group/meyerlab/hOPMAPServer/index.html

从哪里开始?
人类基因组的大约20000个基因中,有约6000个基因的功能未知,或者没有得以很好的表征。Dey说:“我们不了解这些基因的原因,是因为它们对调查研究来说没有一个明显的出发点说。”

用计算机确定基因的功能,科学家有几种选择。最简单的是,寻找具有相似序列的另一个人类基因用于比较。另一种选择是寻找具有共同祖先的人类基因用于比较。但有时没有可供比较的人类基因,科学家们不得不将人类基因与其他物种的基因进行比较。

细胞生物学教授Meyer说,重要的是,他们的方法不需要科学家事先知道基因的功能。比较搜索引擎通过一个被称为“系统发育谱”的过程,缩小了识别人类基因功能无数可能的出发点。系统发育谱根据共同祖先将人类基因与其他物种的基因联系起来。

为了生成系统发育谱,该搜索引擎查询RefSeq——国家生物技术信息中心数据库维持的一个人类和其他物种基因组序列的在线数据库。2014年底,共有来自200多个真核物种——细胞有一个细胞核的动物——的基因组包含在RefSeq数据库中。斯坦福大学的研究人员将人类基因组与176个物种的基因组(包括鸟类,真菌和单细胞生物)进行了比较。

产生系统发育谱是一个复杂的过程,但是Meyer和他的同事利用搜索引擎将它们可视化。一个网页输入人类基因的名称,输出系统发育谱和一个具有共同祖先的基因列表。搜索引擎将系统发育谱翻译成一个颜色编码和标记的图,其中每组物种都有它自己的颜色。

相互作用组拼图中的一片
Meyer和他的同事分析了整个人类基因组,并集中在产生一个子集基因(6000个未知功能的人类基因)的功能预测。

系统发育谱不仅美观,而且它有助于研究人员在176个不同物种的基因中探索功能相似性,从鸟类和鱼类到植物和单细胞藻类。

比较两种不同的人类基因系统发育谱,可逐渐揭开基因的可能功能,这意味着研究人员可以用较少的室内实验,明确基因的实际功能。如果人类基因的系统发生谱是相似的,这表明共同的进化史和基因,可能具有相似的功能。

研究人员在14个以前未知功能的人类基因中验证了搜索引擎。他们使用系统发生谱——可识别人类和非人类基因的共同祖先,作为一个起始点来确定14个基因的功能,发现其中含有细胞内运输和信号非常重要的蛋白质构建指令。

通过限制基因功能的可能性,系统发生谱方法开始阐明人类基因组那些知之甚少的部分。Dey估计,他们的技术能够有用地预测约600个功能未知的基因,或6000个功能未知的人类基因的约百分之十。

这项研究工作是使用免费数据集方便科学家询问和解答疑难问题的一个例子。这种数据集在生物科学中的应用日益增多。

(生物通:王英)

生物通推荐原文摘要:
Systematic Discovery of Human Gene Function and Principles of Modular Organization through Phylogenetic Profiling
Summary: Functional links between genes can be predicted using phylogenetic profiling, by correlating the appearance and loss of homologs in subsets of species. However, effective genome-wide phylogenetic profiling has been hindered by the large fraction of human genes related to each other through historical duplication events. Here, we overcame this challenge by automatically profiling over 30,000 groups of homologous human genes (orthogroups) representing the entire protein-coding genome across 177 eukaryotic species (hOP profiles). By generating a full pairwise orthogroup phylogenetic co-occurrence matrix, we derive unbiased genome-wide predictions of functional modules (hOP modules). Our approach predicts functions for hundreds of poorly characterized genes. The results suggest evolutionary constraints that lead components of protein complexes and metabolic pathways to co-evolve while genes in signaling and transcriptional networks do not. As a proof of principle, we validated two subsets of candidates experimentally for their predicted link to the actin-nucleating WASH complex an

生物通微信公众号
微信
新浪微博


生物通 版权所有