大语言模型为天文瞬变源分类带来革命:基于少量样本的可解释性突破

时间:2025年10月9日
来源:Nature Astronomy

编辑推荐:

本研究针对天文瞬变源检测中真实天体信号与成像伪影的区分难题,创新性地采用大语言模型(LLM)Gemini进行图像分类。通过仅15个标注样本的少样本学习,在Pan-STARRS、MeerLICHT和ATLAS三大巡天数据集中达到93%平均准确率,并生成人类可读的特征描述。该研究突破了传统卷积神经网络(CNN)的"黑箱"局限,为下一代大规模巡天项目提供了透明化分析新范式。

广告
   X   

当夜幕降临,现代天文巡天望远镜如同永不停歇的巨眼,每夜产生海量的瞬变源候选体。然而其中绝大多数都是成像伪影(bogus),如何快速准确地筛选出真正的天体物理信号(如超新星爆发、引力波对应体),成为制约时域天文学发展的关键瓶颈。传统卷积神经网络(CNN)虽能达到98%的准确率,但其依赖的隐空间表征犹如"黑箱",让天文学家难以理解分类依据。
近日发表于《Nature Astronomy》的研究开创性地将大语言模型(LLM)应用于天文图像分析。研究团队使用谷歌Gemini模型,仅需15个标注样本即可在三大巡天数据集上实现93%的平均分类准确率,更重要的是能为每个候选体生成直观的文本描述,实现了"可解释的人工智能"。
研究方法核心在于少样本学习(few-shot learning)策略。团队为每个望远镜提供15组图像三元组(新图像、参考图像、差异图像)及专家撰写的描述文本,通过精心设计的提示工程让模型掌握分类标准。评估体系包含定量指标计算和双盲人工验证,并创新性地引入模型自评估机制,通过一致性评分识别不确定案例。
跨数据集性能验证
在Pan-STARRS(0.25"/像素)、MeerLICHT(0.56"/像素)和ATLAS(1.8"/像素)三个分辨率各异的巡天数据上,Gemini展现出强大适应性。准确率分别达94.1%、93.4%和91.9%,精确度(precision)和召回率(recall)指标与需要大量训练数据的CNN模型相当。特别值得注意的是,当示例数量从15组减少至3组时,性能仅下降6.9个百分点,证明少样本学习的有效性。
人类专家评估验证
12位专业天文学家对200个随机选择的MeerLICHT瞬变源进行双盲评价,采用0-5分的一致性评分标准。结果显示平均分超过4分,且120个图像获得完全一致的评分,证明模型生成的文本描述与人类专家的视觉判断高度吻合。正确分类的样本往往伴随更高的一致性评分,建立了解释质量与分类准确性之间的直接关联。
模型自评估机制
研究最具创新性的发现是模型具备自我诊断能力。Gemini能为自己的解释生成一致性评分,低分案例与错误分类高度相关。通过迭代优化策略,仅需将低一致性案例加入训练集,即可将MeerLICHT数据集的准确率从93.4%提升至96.7%。这种自指涉(self-referential)能力为自动化质量监控开辟新途径。
技术方法概要
研究采用谷歌Gemini 1.5 Pro模型,通过云平台接口调用。提示工程包含角色定义(专业天体物理学家)、明确分类标准(形状、亮度、变异性特征)和结构化输出要求(JSON格式)。数据来源包含MeerLICHT(3,200候选体)、ATLAS(2,000候选体)和Pan-STARRS(2,000候选体)的差异成像数据,其中MeerLICHT数据由专家人工标注,其余数据来自望远镜流水线的垃圾列表和手动分类混合。
研究结论与展望
该研究证实LLM在天文瞬变源分类中兼具高准确性与可解释性优势。与传统CNN相比,Gemini无需复杂训练流程即可适应不同巡天特征,特别是能处理Pan-STARRS特有的芯片间隙(chip gaps)伪影等独特问题。文本输出使天文学家能够像查询注释目录一样交互探索分类结果,而非解读抽象隐空间。
面对维拉·鲁宾天文台等下一代设备每晚千万级警报的挑战,当前LLM的计算延迟和成本仍是应用瓶颈。未来可通过微调(fine-tuning)小型开源模型、模型量化(quantization)技术或CNN-LLM混合架构优化性能。该方法可扩展至星系分类、系外行星凌星监测、引力透镜分析等多领域,实现从检测到科学分析的全流程透明化。
研究同时指出提示工程(prompt engineering)敏感性和模型偏差等挑战,强调建立多样化示例库和领域特定指令的重要性。随着LLM技术的快速演进,这种基于自然语言的交互式分析方法有望成为连接自动化数据处理与人类科学发现的关键桥梁。

生物通微信公众号
微信
新浪微博


生物通 版权所有