天体分类是天体物理学的核心,对于理解宇宙的结构、演化和大尺度复杂性至关重要。天文对象包括可观测宇宙中任何自然存在的物理实体、群体或结构,如星系、行星系统、星团、星云、类星体、系外行星和脉冲星(Narlikar,1996)。现代观测技术的进步极大地增强了天文学家收集和分析数据的能力(Tyson,2010),从而催生了天体信息学(Borne,2010)这一领域,该领域专注于大规模天文数据集的有效分析,通常通过自动分类天文图像来实现(Ackermann等人,2018)。光谱分类通常用于根据天体的亮度、发射线和红移对其进行分类(Petrillo等人,2019),提供有关其组成、温度和相对速度的信息。光谱数据通常表示为不同波长下的光强度的数值测量。作为补充,形态分类基于望远镜成像得到的天体的视觉形状和结构特征(Zhu等人,2019)。特别是对于星系来说,天体的形态分类仍然是天文学中的一个核心问题,因为它对于限制宇宙结构形成和演化的模型至关重要(Zhu等人,2019)。
随着观测和计算技术的快速发展,迫切需要创新的分析方法来揭示天文数据中微妙且以前无法检测到的模式。本研究的一个核心目标是制定一个全面且方法论上稳健的天体光谱分类框架。在这个框架中,这些对象的空间坐标系统是一个关键的基础,能够检测到可能被掩盖的分布趋势和物理关系。如图1所示,天体的空间位置不仅决定了它们的分类,还增强了所得天体物理见解的可解释性。
在这一领域最具变革性的推动因素之一是斯隆数字巡天(SDSS),这一开创性的天文项目彻底改变了多波段观测数据的可用性和质量(Blanton等人,2017)。通过其广泛且精心校准的数据集,SDSS为详细研究各种天体物理实体的光谱和形态特性提供了前所未有的机会。然而,随着这些数据集的广度和复杂性的增加,传统分类方法在效率、可扩展性和准确性方面的局限性变得越来越明显。这促使先进计算范式(尤其是机器学习(ML)的应用融入天体物理学研究。其中,基于天体物理特征的机器学习方法作为一种特别有前景的方法出现,利用领域特定的物理原理来提高光谱和结构分类结果的可靠性和可解释性(Kotsiantis,2007;Ian H. Witten,2016)。
SDSS的贡献不仅限于其广泛的光谱目录;它还产生了迄今为止最详细的三维宇宙地图,为其第十七次数据发布(SDSS DR17)提供了观测基础(Blanton等人,2017)。在这个丰富的数据集范围内,星系被系统地分为五种主要的形态类别:螺旋星系、椭圆星系、特殊星系、不规则星系和合并星系,如图2所示。这些形态区分不仅仅是视觉分类,还与控制星系形成、演化和相互作用的物理过程密切相关。每个类别都包含独特的结构和动态特征,结合光谱特征进行分析,可以更全面地理解宇宙景观。这些类别如下:
- •
螺旋星系:这类星系具有平坦的旋转盘面,其中包含恒星、气体和尘埃,中心有一个由较老恒星组成的核球。螺旋臂从中心向外延伸,使其在视觉上非常独特(Hubble,1936;Kormendy和Kennicutt,2004)。
- •
椭圆星系:这些椭球形星系具有平滑、无特征的亮度轮廓。它们包含较老的恒星和较少的星际物质,因此几乎没有持续的恒星形成(Hubble,1936;Faber等人,1996)。
- •
特殊星系:这类星系无法整齐地归入其他类别,通常表现出不规则或不寻常的结构。它们可能是由星系之间的相互作用或合并形成的(Arp,1966)。
- •
不规则星系:这类星系没有像螺旋星系或椭圆星系那样的规则形状。它们具有活跃的恒星形成区域以及大量的气体和尘埃(Hubble,1936;Hunter和Elmegreen,2004)。
- •
合并星系:这些星系正在相互碰撞和合并过程中,常常形成复杂而混乱的结构(Barnes和Hernquist,1992)。
YOLO(You Only Look Once)系列以其实时对象检测能力而闻名,具有高准确性和效率。YOLOv5、YOLOv7和YOLOv8因其在处理大规模天文数据集时的稳健性而被选中,用于将星系分为五种形态类别。这些分类展示了星系形成和演化的多样性,利用了来自多个天区的优质数据以及先进技术,如光度滤镜、CCD相机和多目标光纤光谱仪,覆盖从紫外线到近红外的波长范围(Martinazzo等人,2020;Hasan等人,2022)。了解这些类别有助于解释星系的形成和发展过程,并揭示它们的过去、现在和未来。整合物理信息可以提高模型的解释能力,并提供对潜在天体物理过程的洞察(Ackermann等人,2018)。本研究的主要贡献包括:
- 1.
天体数据的探索性分析:本研究以SDSS数据集为起点,该数据集提供了关于类星体、恒星和星系等天体的光谱和形态数据。通过探索性数据分析(EDA)来识别模式并改进特征集,重点关注关键的光谱指标,如红移和近红外滤镜。
- 2.
预处理与特征优化:随后对数据进行预处理和特征选择,以发现关键变量并消除噪声,从而便于分类。光谱分析是使用KNN、SVM和RF等深度学习(ML)方法进行分类的基础,最终确定了用于分类恒星、星系和类星体的最佳模型。
- 3.
用于星系形态的深度学习(DL):接下来重点转移到前一步骤中执行的星系形态分析。在选定的数据集上训练DL模型(YOLOv5、YOLOv7、YOLOv8),根据性能评估将星系分类为螺旋星系、椭圆星系、特殊星系、不规则星系和合并星系。该框架结合了数据驱动的DL方法和天体物理学概念,建立了全面的天体分类系统。
本文的其余部分结构如下:相关工作部分回顾了该领域之前的研究,重点介绍了使用机器学习对天文对象进行分类的方法。方法论部分概述了利用SDSS数据进行光谱和形态分类的框架,包括使用随机森林(Random Forest)进行光谱分析和YOLO模型进行形态分类。结果与分析部分展示了这些模型的性能,并详细比较了它们的准确性和有效性。最后,结论部分总结了研究结果,并提出了利用更大数据集提高分类准确性的未来研究方向。