编辑推荐:
我们的身体由大约750亿个细胞组成。但是,每个细胞的功能是什么?健康人的细胞与患有疾病的人的细胞有多大的不同?为了得出结论,必须分析和解释大量的数据。为此,应用了机器学习方法。慕尼黑工业大学(TUM)和亥姆霍兹慕尼黑大学(Helmholtz Munich)的研究人员现在已经测试了自我监督学习作为一种有前途的方法,可以测试2000万个或更多的细胞。
近年来,研究人员在单细胞技术方面取得了相当大的进展。这使得在单个细胞的基础上研究组织和简单地确定单个细胞类型的各种功能成为可能。例如,该分析可用于与健康细胞进行比较,以了解吸烟、肺癌或COVID感染如何改变肺部单个细胞结构。
与此同时,分析产生的数据量也在不断增加。研究人员打算应用机器学习方法来支持重新解释现有数据集的过程,从模式中得出结论性陈述,并将结果应用于其他领域。
自我监督学习是一种新的学习方法
费边·泰斯(Fabian Theis)是TUM生物系统数学建模教授。他和他的团队一起研究了自我监督学习是否比其他方法更适合分析大数据量。这项研究最近发表在《自然机器智能》杂志上。这种形式的机器学习适用于未标记的数据。事先不需要分类样本数据。这意味着没有必要预先将数据分配给某些组。未标记的数据是大量可用的,并且允许大量数据的稳健表示。
自我监督学习基于两种方法。在掩模学习中——顾名思义——一部分输入数据被掩模,模型被训练成能够重建缺失的元素。此外,研究人员还应用了对比学习,在这种学习中,模型学会了结合相似的数据和分离不同的数据。
该团队使用两种自我监督学习方法测试了超过2000万个单个细胞,并将其与经典学习方法的结果进行了比较。在对不同方法的评估中,研究人员将重点放在预测细胞类型和重建基因表达等任务上。
虚拟细胞的发展前景
研究结果表明,自我监督学习提高了性能,特别是在处理迁移任务时——也就是说,当分析来自较大辅助数据集的见解的较小数据集时。此外,零射击细胞预测的结果——换句话说,没有预先训练的任务——也很有希望。遮罩学习和对比学习之间的比较表明,遮罩学习更适合大型单细胞数据集的应用。
研究人员正在利用这些数据开发虚拟细胞。这些是综合的计算机模型,反映了不同数据集中细胞的多样性。这些模型有望用于分析细胞变化,例如疾病。研究结果为如何更有效地训练和进一步优化这些模型提供了有价值的见解。
生物通 版权所有