稀疏高阶偏最小二乘法在变量同时选择、降维和张量去噪中的应用

时间:2025年11月20日
来源:Biometrika

编辑推荐:

基因甲基化对单细胞Hi-C三维基因组接触的影响分析,提出稀疏高阶偏最小二乘估计器,解决高维数据下系数矩阵估计的不一致性,验证方法在仿真中的有效性,并应用于揭示多调控元件对基因表达的调控机制。

广告
   X   

摘要

受多模态单细胞Hi-C数据捕捉的3D基因组接触中DNA甲基化效应估计挑战的启发,我们考虑了张量响应偏最小二乘模型。该模型使用了以下数学表达式: Y=Bx1X+F 其中,相关的高维预测变量为 XRn×d1,而稀疏且噪声较大的高维响应变量为 YRn×d1。 未知的参数是低秩且稀疏的偏最小二乘系数张量 BRn×mdm,而噪声张量为 FRn×mdm。 在本文中,我们研究了在张量偏最小二乘框架下估计偏最小二乘系数 B 并识别其活跃项的问题。我们发现,在预测变量数量和响应张量维度增长速度均快于样本量的高维情况下,现有的张量偏最小二乘估计器(zhao2012higher)的一致性无法得到保证。为了解决这一问题,我们提出了稀疏高阶偏最小二乘估计器及其相关算法,该算法能够同时进行变量选择、降维和响应去噪。我们为所提出的估计器在高维情况下建立了渐近性质保证,并通过全面的模拟研究验证了这些结果,证明了其相对于基线方法的优势。最后,将我们提出的估计器应用于多模态单细胞Hi-C数据,揭示了多个调控因子对基因调控的新生物学见解。

生物通微信公众号
微信
新浪微博


生物通 版权所有