意大利乌尔比诺大学(University of Urbino)的 Christel Sirocchi 等人在《BioData Mining》期刊上发表了题为 “Feature graphs for interpretable unsupervised tree ensembles: centrality, interaction, and application in disease subtyping” 的论文。这篇论文在生物医学数据分析领域意义重大,为理解疾病亚型分类、开发个性化医疗方案等提供了新的思路和方法。
研究背景
在当今科技飞速发展的时代,可解释性机器学习成为了众多领域关注的焦点。就如同我们在生活中做决策时,不仅希望知道结果,更想了解背后的原因一样,在机器学习领域,理解模型预测的依据至少和追求高预测精度同等重要。在医疗等高风险领域,机器学习模型的可解释性尤为关键,它关乎着决策的透明度和可信度。
决策树因其决策过程的透明度而备受关注,但当它们聚集成树集成模型时,可解释性就会大打折扣。随机森林在表格数据处理方面表现卓越,常常超越深度学习技术,在生物医学领域,由于数据集多以表格形式组织,随机森林更是大显身手。然而,如何在享受随机森林强大预测能力的同时,保持模型的可解释性,成为了一个亟待解决的难题。
在疾病亚型分类这一重要应用场景中,随机森林也发挥着重要作用。随着多组学数据(如基因组学、转录组学、蛋白质组学等数据)的不断积累,先进的聚类算法能够基于这些数据将患者进行分层,从而识别出疾病中的不同亚组。这不仅有助于我们深入理解疾病潜在的分子复杂性,还为个性化医疗的发展提供了有力支持。然而,在这个过程中,确定驱动聚类决策的因素至关重要,而现有的无监督学习中评估特征重要性的方法却非常匮乏。例如,一些方法在评估特征重要性时,往往需要预先知道聚类的数量,或者在处理高维数据时计算复杂度极高,这些都限制了它们的应用。因此,增强无监督随机森林的可解释性,成为了推动这些模型在实际中广泛应用的关键,也是本研究的核心出发点。
研究方法
- 无监督随机森林:随机森林是由多个相互独立的决策树组成的集合。在无监督学习中,研究人员使用了一种受群体遗传学中固定指数启发的分裂规则来训练随机森林。具体来说,在构建每棵树时,会对数据集进行自助采样或子采样。每个节点通过选择一个特征子集,然后确定最优的分裂特征和分裂值,以最大化某个准则下的杂质减少量。这里的杂质减少量使用固定指数来衡量,固定指数通过计算节点分裂后组内和组间样本的平均成对距离来确定分裂的有效性。训练完成后,可以得到一个亲和矩阵,用于衡量数据点之间的相似性,进而进行聚类分析。
- 构建特征图:基于训练好的无监督随机森林,研究人员构建了特征图。在这个图中,节点代表特征,边连接相邻节点(父子节点)上的特征,边的权重则根据不同的标准来确定。例如,“present criterion”(当前准则)下,边权重为 1,简单计数特征在相邻节点出现的次数;“fixation criterion”(固定准则)下,边权重等于该节点处计算的固定指数,优先考虑更有效的分裂;“level criterion”(层级准则)下,边权重与节点深度的倒数成正比,更重视靠近根节点的分裂;“sample criterion”(样本准则)下,边权重根据经过该边的数据样本数量与总样本数量的比例来确定,突出影响更多样本的分裂。此外,通过将边权重乘以与特定簇相关的缩放因子,还可以构建特定簇的特征图,以深入了解每个特征在区分不同簇时的作用。
- 挖掘特征图:为了从特征图中选择相关特征,研究人员提出了两种方法。“brute-graph”(暴力图)方法通过评估所有大小为 k 的连通子图,选择总边权重最高的子图所对应的特征作为前 k 个特征,这种方法虽然直观,但计算复杂度呈指数级增长,在处理大特征空间时不太实用。“greedy-graph”(贪心图)方法则更为高效,它首先选择连接权重最大的两个特征,然后迭代地添加与已选特征连接边权重最大的特征,直到选择出 k 个特征。这种方法计算复杂度为多项式级,能够在合理的时间内处理大规模数据。
研究结果
- 出度中心性和边权重:研究人员通过生成两组合成数据集来评估特征图的特性。在第一组数据集中,包含相关特征(有助于区分簇的特征)和无关特征(对区分簇没有作用的特征)。结果发现,在所有四种边构建准则下,相关特征的出度中心性都显著高于无关特征,这表明出度中心性能够有效捕捉特征在聚类任务中的重要性。其中,“sample criterion” 在区分相关和无关特征方面表现最为出色。在第二组数据集中,研究人员评估了特征对分离簇的能力与连接它们的边权重之间的关系。结果显示,所有边构建准则下,边权重与分离簇的数量都存在显著的正相关关系,“sample criterion” 再次表现突出。此外,研究人员还对随机森林的超参数进行了分析,发现特征子采样设置为 sqrt、最小终端节点大小设置为 5、树的数量根据数据集复杂度设置为 500 或 1000 时,能够得到更理想的特征图。
- 特定簇的特征图:为了验证特定簇的特征图是否能够有效捕捉每个特征在区分单个簇时的作用,研究人员生成了包含不同类型特征(簇特定特征、子相关特征和无关特征)的合成数据集。实验结果表明,结合特定的边构建准则和簇特定缩放因子生成的特征图,能够很好地区分这三种类型的特征。其中,“fixation criterion” 在分离簇特定特征方面表现最佳,“sample criterion” 在区分相关和无关特征方面表现最优。
- 合成数据集上的特征选择(含相关特征):研究人员在包含不同数量相关特征的合成数据集上评估了 “brute-graph” 和 “greedy-graph” 两种特征选择方法的有效性。结果显示,两种方法都能在选择无关特征之前准确地选择出所有相关特征,表现出了良好的性能。通过观察所选特征诱导的子图平均边权重,发现当加入无关特征时,平均边权重会显著下降,这为确定最优特征数量提供了重要依据。在高维数据集实验中,“greedy-graph” 方法同样能够在选择所有相关特征后,通过平均边权重的下降来指示无关特征的加入。
- 合成数据集上的特征选择(含重复特征):在包含冗余特征的合成数据集上,研究人员发现通过评估子图边权重的图挖掘策略能够更有效地选择特征组合。例如,在实验中,最重的三元组始终对应于有效的特征组合,“brute-graph” 和 “greedy-graph” 方法在探索图结构时能够发现特征组合的重要性,并且通过平均边权重的变化确定合适的特征数量。
- 基准数据集上的特征选择:研究人员将 “brute-graph” 和 “greedy-graph” 方法与三种最先进的方法(基于分类的方法、基于系统发育的方法和留一变量法)在 10 个基准数据集上进行了比较。结果显示,“greedy-graph” 方法在聚类性能(通过调整兰德指数 ARI、归一化互信息 NMI 和 Fowlkes-Mallows 指数 FMI 衡量)、单调性(聚类性能随所选特征数量增加而提高的趋势)和稳定性(特征选择过程在多次应用中的稳定性)方面都表现出色。与其他方法相比,“greedy-graph” 方法计算速度更快,在处理高维数据时更具优势。
- 可解释的疾病亚型发现:研究人员将所提出的方法应用于肾癌患者的基因表达数据分析,以进行疾病亚型分类。通过对数据的预处理和特征选择,他们发现了三个具有不同生存结果的患者群体。通过绘制生存曲线和分析特定簇的特征图,研究人员确定了一些关键基因,如 ABCA13、ABCA11P 和 ABCA4 等,这些基因在不同簇中的重要性存在差异,并且属于 ATP 结合盒(ABC)转运蛋白家族,与癌症的发生、发展和耐药性密切相关。在更大的基因数据集上进行实验时,也得到了类似的结果,进一步验证了方法的有效性。
研究结论与讨论
本研究提出了一种全新的方法,通过构建和挖掘特征图来增强无监督随机森林的可解释性,这一方法在整个数据集和单个簇层面都适用。特征图中的特征中心性反映了特征与聚类任务的相关性,边权重则表明了特征对的判别能力。两种特征选择策略 —— 具有指数复杂度的暴力法和具有多项式复杂度的贪心算法,在合成数据集和基准数据集上进行了广泛评估,结果表明贪心近似算法能够产生准确的结果。
在基准数据集上的评估显示,“greedy-graph” 方法在大多数基准测试中优于三种最先进的特征选择策略,以更低的计算成本实现了卓越的聚类性能。而且,“greedy-graph” 方法在性能上具有更高的单调性,随着所选特征数量的增加,聚类性能持续提升,降低了选择次优特征子集的风险。在多次迭代中,“greedy-graph” 方法在特征排名和所选特征子集方面表现出更高的稳定性,为生物标志物发现等应用提供了可靠的解决方案,尤其适用于高维生物医学数据的分析。
在实际应用中,将该方法应用于疾病亚型分类,通过特定簇分析,能够精确地洞察患者分层情况。例如在肾癌亚型分类中,发现了不同患者群体的生存差异以及关键基因的作用,为进一步研究癌症的分子机制和开发个性化治疗方案提供了有价值的线索。
然而,研究也存在一些局限性。在图构建方面,目前的方法无法直接捕捉特征之间的长程关系和高阶关系。在图挖掘阶段,贪心算法依赖于特征图的连通性,当计算资源有限或特征数量非常大时,可能无法保证图的连通性。此外,特征重要性的传达方式也有待改进,贪心算法输出的是特征排名,而非明确的重要性分数。
未来的研究可以从多个方向展开。例如,可以定义更多的边构建准则,探索不同的图指标和挖掘算法,进一步丰富图的表示形式,将更多的信息融入到特征图中。同时,还可以对该方法进行更广泛的评估,应用于更多的疾病亚型分类任务,以验证其在不同生物医学场景中的适用性和有效性。
总的来说,这项研究为无监督随机森林的可解释性提供了新的解决方案,在生物医学数据分析领域迈出了重要的一步,有望推动个性化医疗的发展,为人类健康事业做出贡献。