在生物学研究中,准确鉴定决定特定功能的基因一直是科学家们追求的核心目标。然而,传统方法如突变体筛选、图位克隆和全基因组关联分析(GWAS)往往局限于单一物种分析,存在耗时长、资源消耗大、难以全面覆盖等固有局限性。随着基因组测序技术的飞速发展,目前已测序的细菌基因组超过43万个,但绝大多数细菌的功能基因仍处于未被探索的"数据孤岛"状态,形成了"数据丰富但知识贫乏"的尴尬局面。这种困境为人工智能特别是机器学习(ML)的应用提供了前所未有的机遇。机器学习以其处理复杂生物数据的强大能力,在预测蛋白质三维结构、基因表达水平分析等方面已取得突破性进展。然而,迄今为止,尚未有机器学习被准确应用于关键生物功能基因鉴定的报道。为了解决这一挑战,研究人员开发了一种名为GPGI(Genomic and Phenotype-based machine learning for Gene Identification)的新型计算框架。该方法的核心创新在于利用蛋白质结构域作为"通用功能语言",通过机器学习算法建立跨物种的结构域与表型之间的精确预测模型,进而识别包含高贡献度结构域的候选基因。研究人员以细菌杆状形态为案例,收集了3750个具有匹配基因组和性状信息的细菌数据,构建了以蛋白质结构域为特征的矩阵。通过系统比较五种常用机器学习算法,发现随机森林算法在测试集上表现最佳,准确率达到94.76%,Kappa系数为0.93,表明其分类结果与实际数据高度吻合。基于随机森林算法的特征重要性评估,研究人员筛选出前10个重要的蛋白质结构域,并选择大肠杆菌BL21(DE3)作为目标菌株进行基因敲除验证。通过CRISPR/Cpf1双质粒基因编辑系统,成功构建了多个基因敲除菌株,并利用扫描电子显微镜(SEM)观察其形态变化。实验结果显着表明,pal和mreB基因敲除菌株出现了明显的形态改变。野生型大肠杆菌细胞呈现长或短杆状形态,末端圆润。而缺失mreB基因的敲除菌株则呈现近乎球形的形态,长度明显缩短,直径无明显变化。缺失pal基因的菌株则呈现不规则形状,类似于无细胞壁的原生质体状态。这些发现有力证实了GPGI方法在识别关键形态决定基因方面的有效性。为了评估方法的稳定性,研究人员还分析了训练集规模对预测准确性和基因识别准确性的影响。结果显示,即使仅使用总数据集的50%进行训练,包含OmpA和MreB_Mbl结构域的基因仍能稳定出现在前10个重要结构域中。当训练集包含超过1500个基因组时,OmpA结构域始终排名第一。更重要的是,即使仅使用124个基因组进行训练,该方法仍能稳健地识别出至少一个关键结构域基因,证明了GPGI方法在不同数据规模下的可靠性。主要技术方法本研究整合了3750个细菌的基因组和表型数据,利用pfam_scan软件包解析蛋白质结构域,构建特征矩阵。采用随机森林等机器学习算法建立预测模型,通过五折交叉验证评估特征重要性。使用CRISPR/Cpf1基因编辑系统构建敲除菌株,并通过扫描电子显微镜进行形态学验证。研究结果构建细菌形状预测模型研究人员使用五种机器学习算法对数据集进行训练和测试,其中支持向量机和随机森林算法表现最佳。随机森林算法在测试集上的预测效果尤为突出,对不同形状细菌的召回率分别达到97.18%(球菌)、92.75%(杆菌)、92.75%(螺旋菌)和87.90%(其他形状)。关键基因识别新方法通过随机森林算法的特征重要性评估,研究人员识别出10个与杆状形态相关的重要蛋白质结构域。实验验证发现,敲除pal和mreB基因会导致大肠杆菌形态发生显着变化,而其他六个基因(yicC、tolQ、amiC、yddB、rpoZ)的敲除虽未引起长度或整体形状的明显改变,但部分菌株表面出现了褶皱和凹陷等细微变化。