基于GeneMatrix的用户引导式序列数据选择与比对(User Guided Selection and Alignment of Sequence Data by GeneMatrix)

时间:2026年5月26日
来源:Journal of Molecular Evolution

编辑推荐:

多个蛋白质或DNA序列的比对(Multiple Sequence Alignment, MSA)是诸多生物学领域的常见任务,所得比对结果可用于识别保守区域或位点,进而评估患者序列变异可能的致病性(pathogenicity)、检测可判定未知基因活性的功能结构域

广告
   X   

多个蛋白质或DNA序列的比对(Multiple Sequence Alignment, MSA)是诸多生物学领域的常见任务,所得比对结果可用于识别保守区域或位点,进而评估患者序列变异可能的致病性(pathogenicity)、检测可判定未知基因活性的功能结构域(functional domain),或通过追踪保守区变化推断进化关系。高通量测序(High-Throughput Sequencing, HTS)技术的发展使测序数据生成变得轻而易举,这些数据通过NCBI宿主的GenBank等公共数据库公开。截至2024年10月,GenBank收录约47亿条序列,涵盖超58万种物种。因此,多序列比对(MSA)的瓶颈已从数据生成转向数据检索、提取与过滤。虽然针对常用序列已发布人工策展的数据集,但获取非常用序列的数据集仍颇为繁琐。为此,研究人员开发了GeneMatrix应用程序,可辅助从GenBank格式的单基因序列文件或病毒及线粒体等基因组文件中,对DNA与蛋白质序列进行提取、过滤、聚合及比对。
论文解读:《Journal of Molecular Evolution》——GeneMatrix:用于GenBank序列提取、筛选、比对及系统发生分析参数优化的用户引导式桌面应用软件
一、研究背景与立项依据
系统发生组学(phylogenomics)、系统地理学(phylogeography)、群体遗传学、分子进化及计算机模拟(in silico)功能基因组分析,均依赖从在线数据库或从头组装(de novo assembly)中编译经策展的正交同源(orthologous)序列数据集。现有的人工策展参考数据库(如SILVA、PR2、ya16sdb、MIMT)多针对16S/18S rRNA等特定分子标记,更新滞后且适用范围有限。GenBank虽体量庞大,但因提交者自行注释,存在物种误标(misattribution of species)、基因家族归属错误、命名不规范(如使用不同同物异名、旧命名法未更新)、特征(feature)坐标标注不全(如CDS缺起始/终止密码子)及部分序列(partial sequence)等问题,致使从GenBank格式(.gb)文件中手动提取目标基因/CDS/tRNA/rRNA特征序列并剔除异常数据极具挑战。现有工具如Biopython SeqIO、R包phylotaR、AnnotationBustR、genbankr、网页版GenBank Feature Extractor及命令行EASER等,多要求编程能力或不适于中等规模以上数据集交互操作;MEGA与PhyloSuite虽有图形界面但GenBank特征精细化筛选与异常序列识别辅助较弱。因此,研究人员开发了Windows平台下基于.NET框架的GeneMatrix软件,旨在为非专业生物信息学背景的实验人员提供图形化、用户引导式的GenBank/FASTA序列导入→按特征分类→同名基因聚合→重复/异常序列识别→FASTA导出→多序列自动比对(MSA)→GBlocks清理→PartitionFinder2最优分区模型指导的一站式流程,特别适用于病毒及线粒体基因组等含多基因特征的序列数据处理。
二、主要关键技术方法
研究人员使用C#与.NET框架开发GeneMatrix桌面程序。数据可通过三种途径导入:(1)含GenBank登录号(accession ID)列表的文本文件,程序调用NCBI E-utilities(efetch,rettype=gb)自动下载并解析,内置限速防封机制(≥350 ms间隔);(2)本地单个或批量GenBank格式文件,逐条解析头部描述/ID/源生物,提取CDS/tRNA/rRNA特征的坐标、方向及名称标签(按/gene→/product→/protein_id→/locus_tag优先级取首标签),若勾选"Extend CDS"则向侧翼1–3 bp扫描补全缺失的起始/终止密码子,同时保留关联翻译的蛋白质序列;(3)文件夹内单序列FASTA文件(全为核酸或全为蛋白,可解析Mitos输出格式三处分号命名)。界面以双树形面板显示未选/已选序列并按特征类型分支,支持异名基因节点合并至首选名下聚合导出。内置Needleman–Wunsch全局两两比对打分识别种内多态与跨物种异常低相似度离群序列(outlier)。可调用本机安装之MAFFT、MUSCLE、ClustalW、PRANK执行各基因FASTA多序列比对,可选GBlocks清理比对区块,并可引导生成PartitionFinder2配置文件并在检测到Conda环境时激活Python 2.7运行PartitionFinder2确定后续贝叶斯(BEAST 2/MrBayes)或最大似然系统发生分析的最优分区与替代模型。测试数据含GeneMatrix GitHub仓库中70个龟类线粒体基因组(Chelonoidis_mtgenomes.gb,含13个CDS与2个rRNA基因)。
三、研究结果(按原文Methods and Materials小节组织)
Design and Implementation(设计与实现)
GeneMatrix主窗口左右分栏树状显示未选与已选序列,按CDS、tRNA、rRNA、Unknown四类分支归类。导入GenBank文件时解析每条记录的元数据与特征注释,按既定标签优先级命名字段,提取特征区间对应核酸(及关联翻译蛋白)序列;若特征含不确定端标记"<"或">"则按给定坐标截取不做外推。导入FASTA时依文件名或Mitos标准命名解析物种与基因名。研究人员得出结论:该交互界面使用户可直观浏览多基因组记录中各基因特征并按生物学判断合并异名同源节点,克服GenBank命名不一致导致的自动聚合失败问题。
Selecting the Optimal Data Set(最优数据集选择)
GeneMatrix可将同一基因下完全相同的DNA序列归为一组,并将含相同基因组合的GenBank记录聚为超集(superset),理想情况下一一对应物种,若出现一物种多条不同序列提示自然多态或误注,一序列对应多物种提示种间高度保守或误标。程序还可对所有已选序列做Needleman–Wunsch全局比对得两两得分矩阵,以与其他序列平均同源度最高者为参照,偏离典型偏差范围的低得分序列被标记为潜在错误注释或片段,可由用户提供待剔除accession ID列表移除。研究人员指出该功能帮助用户在最终比对前多轮核查GenBank常见注释错误。
Saving Sequences as Gene-Specific FASTA Files(保存基因为特异性FASTA文件)
用户将左树目标基因节点移入右树(异名节点可挂接至首选名节点实现聚合),选定后可将各基因的核酸序列、蛋白质序列或二者分别导出为独立命名FASTA文件。研究人员确认此步骤产出下游比对所需的标准输入文件。
Automating the Analysis(分析自动化)
GeneMatrix生成批处理脚本调用指定比对器(MAFFT/MUSCLE/ClustalW/PRANK)对各FASTA做MSA,可选GBlocks去噪,结果可串联为超级矩阵(supermatrix);默认参数为各比对器推荐值且允许用户修改并记忆。对于系统发生分析,软件分步引导创建PartitionFinder2配置文件并执行分析(自动搜寻并激活含Python 2.7的Conda环境)。研究人员强调此模块化设计使用户也可仅用GeneMatrix做序列策展,外部完成比对后再导入做PartitionFinder2指导,兼容其他流程如LMAP_S。
四、讨论与结论总结(翻译浓缩讨论部分核心结论)
研究人员指出,随公共库序列指数增长,瓶颈已由测序转为数据选取、提取与验证。GenBank因宽松校验存在物种错配和基因家族误注问题,GeneMatrix通过将序列分组检验物种–序列对应关系、Needleman–Wunsch打分识别离群序列辅助发现注释错误。GenBank缺乏强制基因命名规范致同源基因异名(如同物异称、旧称未更新),GeneMatrix提供用户驱动的手工选择与新名聚合机制解决自动归并困难,既可聚合正交同源也可聚合旁系同源(paralogous,如组蛋白基因)。对缺起止密码子的CDS提供侧翼扫描补码选项,部分序列只能剔除。GeneMatrix集成四种主流比对算法及GBlocks清理,并可引导PartitionFinder2确定最优分区模型,模块解耦允许与其他软件混用。常规台式机可在合理时间内完成数十个线粒体基因组多基因比对,适合过夜处理中等规模数据集(如文中70个龟类mt基因组之13 CDS+2 rRNA)。综上,GeneMatrix通过图形化流程简化GenBank序列特征提取、过滤、同源聚合、异常序列排查、FASTA导出、多序列自动比对、GBlocks清理及PartitionFinder2参数优化,显著提升病毒与细胞器基因组系统发生组学前期数据准备效率,降低非生物信息学专业人员操作门槛。

生物通微信公众号
微信
新浪微博


生物通 版权所有