一种用于星系分类的多模态融合网络,基于CSST模拟数据集

时间:2026年3月31日
来源:Astronomy and Computing

编辑推荐:

星系恒星分类、多模态数据融合、ResNet-50 BiLSTM模型、CSST模拟数据、天文大数据处理

广告
   X   

韩卓明|张天梦|刘超|凌晨晓吉
中国科学院国家天文台,北京,100101,中华人民共和国

摘要

区分恒星和星系是天体分类领域的一个基本问题。对于这些正在进行和即将进行的数字巡天项目来说,这个问题变得尤为具有挑战性,因为这些项目将产生TB甚至PB级别的天文数据。虽然深度学习为大规模数据集中的恒星-星系分类提供了一个强大的解决方案,但大多数当前的方法都仅依赖于目录数据,而这些数据主要包含多波段星等和不精确的形态参数。因此,我们利用中国空间站望远镜(CSST)的模拟数据构建了一个包含图像和光度目录的数据集,其中包含32,371颗恒星和93,525个星系。我们提出了一个基于ResNet-50和BiLSTM的监督式深度学习网络,以改进这两种天体的分类。该模型整合了目录和图像的特征,在GPU上训练50个周期后,星系的召回率为99.81%,恒星的召回率为99.66%。我们评估了数据增强和多模态数据融合的效果,结果表明我们的模型表现优异。此外,我们的模型对暗淡的天体和高红移星系也具有很高的准确率,证明了其在处理CSST科学数据方面的适用性。

引言

天体的分类在观测天文学中仍然是一个重大挑战,其中的关键问题是要清晰地区分恒星和星系。这是因为恒星和星系代表了不同的天体物理现象,这对于理解宇宙的结构和演化具有重要意义。此外,明确区分恒星和星系可以提高后续天体物理研究的准确性,无论是在理论还是观测方面。
传统的分类方法高度依赖于天文学家的专业知识和经验。然而,随着许多正在进行和即将进行的天文巡天的出现,如暗能量巡天(DES;暗能量巡天合作组2016年)、斯隆数字巡天(SDSS;York等人2000年)、罗曼空间望远镜(Spergel等人,2015年)、欧几里得(欧几里得合作组,2022年)、兹威基瞬变设施(ZTF;Bellm 2014年)、全景巡天望远镜和快速响应系统(Pan-STARSS;Chambers等人2016年)、时空遗产巡天(LSST;Ivezić等人2019年)、盖亚巡天(盖亚合作组,2016年)以及中国空间站巡天望远镜(CSST;Zhan 2018年)等,情况已经变得更加复杂。这些巡天预计将获得数百万到数十亿颗恒星和星系的成像数据,使得手动分析和分类变得不切实际。具体来说,LSST每晚将产生约15 TB的原始数据,对400亿个对象进行32万亿次观测(Ivezić等人,2019年),而CSST将绘制大约17,500平方度的天空图,获取超过10亿个星系和10亿颗恒星的光度数据(Wei等人,2026a)。因此,有必要开发出能够准确快速区分恒星和星系的方法。
目前,通常使用三种主要方法来分类天体。第一种方法是分析光谱差异(Zeraatgari等人,2024年;Moradi等人,2024年)。恒星光谱通常显示出由恒星大气中的各种元素吸收特定波长光线所引起的明显吸收线。相比之下,星系的光谱可能同时显示吸收线和发射线,尤其是在星系中有活动星系核(AGN)或大量电离气体存在的情况下。第二种方法基于形态差异。通常,恒星通过点扩散函数(PSF)来描述,而星系则表现出扩展的、弥漫的结构(Kron,1980年;Odewahn等人,2004年;Vasconcellos等人,2011年)。这种方法与光谱差异的分类方法一致(Newman等人,2013年),并在SExtractor(源提取器;Bertin 2011年)中得到广泛应用。第三种方法是根据天体在颜色-颜色图上的不同位置来分类恒星和星系(Huang等人,1997年;Baldry等人,2010年;Małek等人,2013年)。结合这些方法的方法应该能够更有效地利用可用数据(Molino等人,2014年;Soumagnac等人,2015年;Kim和Brunner,2017年)。
尽管通过光谱学识别天体类型本身并不困难,但当试图为数百万个单独的天体收集如此详细的观测数据时,这一过程变得复杂且耗时(Shawhan等人,2019年)。使用跨多波段的图像和光度目录对天体进行分类,并根据它们的颜色指数和形态结构分配标签,是一种更为快捷的方法。Chaini等人(2023年)使用了SDSS数据发布16中的5波段图像和精心挑选的光度参数,获得了98.1%的恒星-星系分类总体准确率,这比单独的模型表现得更好。最近的一些研究也采用了模态融合方法,并取得了显著的分类结果(Bhavanam等人,2024年;Feng等人,2025年)。
近年来,天文学中恒星和星系的分类采用了多种机器学习(ML)算法(Nakazono等人,2021年;Stoppa等人,2023年;Bhavanam等人,2024年)。这些算法能够识别多维特征空间中的复杂非线性行为。其中,深度学习(DL)网络在处理具有更多参数和更复杂结构的问题时表现更好,例如卷积层、池化层和全连接层,这些层可以利用天体图像中的潜在信息。
Zhang等人(2024年)提出了一种使用哈勃空间望远镜(HST)的高分辨率图像来区分恒星和星系的方法。然而,这种方法仅使用了i波段图像数据,并没有结合任何多波段特征。当通量相对较弱时,星系往往更加紧凑,即使使用他们的极坐标变换方法(Fang等人,2023年),准确分类也具有挑战性。Costa-Duarte等人(2019年)将随机森林方法应用于S-PLUS 12波段目录中的恒星和星系分类,达到了95%的准确率。研究了目录中各种特征对分类结果的重要性,并得出结论,形态参数尤为重要,特别是半高全宽(FWHM)和PSF,这些可以从图像中作为形态特征提取出来。
大多数现有方法依赖于单波段目录或图像,而这些单波段目录或图像本身包含的信息量比多波段对应物要少。多波段图像数据提供了更多关于天体的信息,揭示了它们在每个波段中的形态,有助于区分恒星和星系。
在本文中,我们的目标是对CSST主巡天模拟数据中检测到的对象进行分类,这些数据覆盖了0.752范围内的7个波段。我们在这项工作中使用的DL算法是监督式的,结合了多波段图像和光度目录,以便更好地区分恒星和星系。
本文的结构如下:第2节介绍了我们研究中使用的数据集。第3节描述了应用于这些数据的预处理工作。第4节首先提出了方法的框架并介绍了其实现细节。第5节展示了网络的分类结果。进行了一些消融实验,并验证了该模型在处理暗淡天体和高红移星系情况下的有效性。第6节给出了结论。

数据

CSST是一台口径为2米的太空望远镜,配备了五种仪器:多波段成像和无狭缝光谱巡天相机(MSC)、太赫兹光谱仪(TS)、多通道成像仪(MCI)、积分场光谱仪(IFS)和冷行星成像日冕仪(CPI-C)。MSC旨在进行多波段成像和无狭缝光谱巡天。其焦平面具有1.1平方度的视场(FoV),分为30个9k×9k CCD探测器,包括七个光度

数据预处理

在本节中,我们简要概述了预处理步骤,包括交叉匹配、图像裁剪和数据增强,以确保数据更好地满足我们模型的输入要求。

数据融合

数据融合有效地结合了来自多个来源的数据,以获得比单一信息源更准确、完整和可靠的估计和判断。核心目标是从多个数据源中提取有价值的信息并减少冗余,从而提高系统的可靠性和决策能力。数据融合包括像素级融合、特征级融合和决策级融合(Sharma等人,2023年)。不同层次的数据融合具有各自的特点

评估标准

使用测试样本来评估训练网络的性能。为了全面评估模型,我们选择了多个指标,包括精确度、召回率、准确率和F1分数。依赖单一评估指标往往会导致片面甚至错误的结论。通过从多个角度使用这些指标来检查模型,我们可以更全面地了解其性能并识别任何存在的问题。

结论

在本文中,我们提出了一个基于ResNet-50和BiLSTM网络的多模态数据融合模型,用于分类CSST模拟数据中的恒星和星系。实验得出的主要结论如下。
1. 我们的模型在分类恒星和星系方面取得了高召回率和精确度。星系的召回率为99.81%,精确率为99.88%,而恒星的召回率和精确率分别为99.66%和99.44%。总体分类准确率超过99.75%。

CRediT作者贡献声明

韩卓明:撰写——审稿与编辑,撰写——初稿,可视化,验证,软件,方法论,调查,正式分析,数据管理,概念化。张天梦:撰写——审稿与编辑,监督,资源协调,项目管理,方法论,正式分析,概念化。刘超:监督,资源协调,资金获取。凌晨晓吉:撰写——审稿与编辑,监督,资源协调。

利益冲突声明

作者声明他们没有已知的财务利益或个人关系可能影响本文报告的工作。

致谢

本工作基于CSST模拟团队创建的模拟数据,该数据由中国载人航天项目的CSST科学数据处理和分析系统支持。模拟数据由中国载人航天项目的CSST科学数据处理和分析系统进行处理。本工作得到了中国载人航天项目CMS-CSST-2025-A21)和国家自然科学基金(NSFC;资助编号12233008)的支持。

生物通微信公众号
微信
新浪微博


生物通 版权所有