研究人员首先构建了三个覆盖真核生命树(eukaryotic tree of life, eTOL)的高质量100蛋白质组数据集,并结合GTDB中的6.5万余个原核基因组重建阶元水平泛基因组数据库,同时纳入130余万个病毒蛋白簇代表序列。随后,通过OrthoFinder聚类、HMM profile检索、最大似然系统树重建、LECA单系蛋白家族筛选、KEGG Orthology(KO)与COG功能注释、分支长度比值与贝叶斯推断,系统识别LECA蛋白家族来源、推断基因获取波次及供体代谢潜能。比较对象还包括多类现生自由生活单细胞真核生物;样本来源主要为NCBI、EukProt、UniProt、Ensembl、SGD、P10K及GTDB、RVDB数据库。
在“Reconstruction of the proteome”部分,研究人员首先重建LECA蛋白质组。通过对真核蛋白质组进行质量控制、去除低复杂度序列、缩减近期旁系同源序列,并在三个平行数据集中重复分析,研究获得了一组具有高度一致性的LECA候选直系同源群。随后,研究将这些家族与广泛的原核和病毒数据库进行比对,并据此重建系统发育树,对真核单系分支进行精炼,最终得到更可靠的mLECA-OG集合。结果显示,重建得到的LECA蛋白质组规模与近期估计相符,说明该祖先具有相当高的分子复杂性。功能注释表明,LECA已具备核酸与蛋白质加工核心机制、胞吞与细胞外颗粒处理系统、吞噬体、溶酶体、过氧化物酶体以及具有有氧呼吸能力的线粒体,并拥有基于马达蛋白的胞内运输系统。与此同时,其细胞周期调控仍较初始。代谢层面,Wood–Ljungdahl途径与Arnon–Buchanan循环不完整,且缺乏典型厌氧相关酶,提示LECA更可能是异养且倾向好氧的生物。
在“Determining the ancestries of LECA”部分,研究人员系统判定LECA蛋白质组各家族的祖先来源。分析显示,约33%的蛋白家族仅见于真核生物,被归为推定创新;约53%属于获得性家族,即可在非真核生物中找到同源序列。对这些获得性家族的系统树进行严格过滤后,除公认的Asgard古菌与Alphaproteobacteria外,研究稳定识别出两个额外的重要细菌亲缘信号,即Myxococcota与Planctomycetota。它们在不同数据集和不同严格度条件下均保持非可忽略比例,且树拓扑解析难度并不高于Alphaproteobacteria信号,说明这些归属不太可能仅由系统发育噪声造成。进一步的“负对照”分析通过人为移除Alphaproteobacteria参考序列,验证了若仅因采样不全导致错误归属,应主要偏向与其最近缘的Gammaproteobacteria,而非观察到的Myxococcota或Planctomycetota,因此支持后二者代表独立于线粒体祖先的基因供体。与此同时,约4.5%的mLECA-OG系统树显示病毒姊妹群,其中以Nucleocytoviricota最常见。继续向上追踪非病毒姊妹群后,研究推断这些属于病毒介导的原核基因转移。功能上,LECA代谢和细胞过程呈现高度嵌合性,即不同功能模块通常同时包含创新成分与多种来源的获得性基因,但某些类别仍表现出来源偏倚,例如信息处理与代谢功能在古菌/细菌来源上的分工,以及能量产生相关成分偏向Alphaproteobacteria来源。
在“Donor relative timing and metabolism”部分,研究人员进一步分析不同供体基因输入的相对时间顺序。其方法是计算标准化茎长,即LECA支系与最近非真核姊妹群共同祖先之间的分支长度,并以LECA内部至现生物种分支长度中位数归一化,借此估计相对古老程度。结果显示,不同供体的分支长度分布峰值不同,提示这些基因输入并非同步,而是构成不同波次。Asgard古菌信号最为古老;在细菌供体中,Planctomycetota通常显示最长茎长,提示较早介入;随后是线粒体祖先与Myxococcota,其输入时间部分重叠。研究还指出,这些供体类群均常见于微生物席(microbial mats),且其推断获取顺序与某些深层微生物席中这些类群的相对分布深度相似,从生态学角度为连续相互作用模型提供了间接支持。基于这些时间波次,研究人员筛选出更可能在同一时期由同一供体输入的基因集合,并进一步根据现生“供体样”基因组中与LECA相关KO的共现模式,间接重建潜在供体祖先的代谢能力。结果提示,Asgard祖先可能并不具甲烷生成特征,而更支持发酵代谢;线粒体祖先强烈支持有氧呼吸能力,但不支持若干经典“氢假说”模型所预期的氢化酶配置;Myxococcota与Planctomycetota均显示一定的硫酸盐还原潜能,而Planctomycetota还表现出较早参与和较高细胞复杂性,因此在某些真核起源情景中可被视为值得重估的潜在关键伙伴。不过,作者同时强调,这些推断不能直接证明任何一方为宿主,也不能单独判定相互作用一定属于内共生。
在“Viruses as mediators of gene acquisition”部分,研究重点讨论病毒在真核发生中的角色。系统分析表明,至少4.5%的获得性事件可解释为病毒介导,其中74%与Nucleocytoviricota相关。研究人员对这类树拓扑进行了更细粒度追踪,发现这些病毒相关基因的更深层非病毒姊妹群包含前述所有主要供体类群,且Asgard古菌信号占比较高。功能富集分析显示,病毒介导输入的基因更多涉及信号转导机制,尤其是激酶、染色质相关蛋白及翻译后修饰相关蛋白。这一模式与既往关于大型DNA病毒曾感染原始真核样生物的观点相吻合,也提示病毒可能不仅是被动携带者,还可能通过在共存谱系之间转运先前获得的原核基因,促进原始真核谱系分子复杂性的累积。