乳制品的质量和化学成分是影响消费者健康、市场价值和法规遵从性的关键因素(Duan等人,2025;Mensching等人,2025)。确保牛奶及其衍生物的一致性和安全性对生产者和消费者都至关重要。传统的分析方法(如化学分析)可以提供准确的牛奶成分测量结果(Mensching等人,2025;Soyeurt,2023)。然而,这些方法通常劳动密集、耗时且需要专门知识,因此不太适用于高通量或实时质量控制(Said等人,2022)。相比之下,近红外(NIR)光谱技术提供了一种快速、无损的牛奶评估方法,能够实现高效的实时监测和改进的校准策略(Said等人,2022)。
尽管有这些优势,但获取大规模、多样化且高质量的光谱数据集仍然具有挑战性。数据收集资源密集,并且容易受到季节变化、饲养方案、动物健康、农场位置等因素的影响。此外,光谱数据集经常存在类别不平衡的问题,即某些特征(如脂肪含量)被过度代表,而其他特征(如尿素和体细胞计数(SCC)则被低估。这种不平衡会降低模型性能,导致预测偏差和泛化能力差,尤其是在其他牛奶质量属性方面。这些挑战在其他领域也很常见,包括欺诈检测、医学诊断和文本分类(Antwi等人,2024;Gracia Moises等人,2025;Haixiang等人,2017;Pothapragada & Sujatha,2025)。为了解决这些限制,研究人员越来越多地采用深度生成模型来学习复杂的数据分布并生成逼真的合成样本。常见的方法包括变分自编码器(VAEs)、生成对抗网络(GANs)和扩散模型(Goodfellow等人,2014;Ho等人,2020;Kingma & Welling,2022)。其中,VAEs应用广泛,但在高维领域中往往会产生过于平滑或模糊的输出(Larsen等人,2016)。相比之下,基于GAN的方法能够生成清晰逼真的输出,适用于数据量有限或存在类别不平衡的情况(Cao等人,2025;Engelmann & Lessmann,2021;Goodfellow等人,2014)。然而,普通的GAN缺乏显式控制生成数据属性的机制,这限制了它们在需要条件生成任务中的实用性(Goodfellow等人,2014)。为了解决这个问题,条件GAN(cGANs)及其扩展(如辅助分类器GANs(ACGANs)在训练过程中加入了类别标签,从而实现了基于指定特征的引导生成(Mirza和Osindero,2014;Odena等人,2017)。
一些研究已将cGANs应用于结构化数据的生成。例如,Engelmann和Lessmann(2021)引入了一种条件Wasserstein GAN,用于生成具有数值和分类特征的表格数据,在信用评分应用中表现出色。同样,Shafqat和Byun(2022)提出了一种混合架构,将条件Wasserstein GAN与梯度惩罚和打包(PacGAN)策略结合,以解决推荐系统中的模式崩溃问题。尽管取得了这些进展,大多数现有的条件GAN模型仍然依赖于卷积神经网络(CNN)架构(Isola等人,2018;Odena等人,2017;Radford等人,2016)。不幸的是,由于CNN的感受野本质上是局部的,它们在模拟长距离依赖关系方面能力有限(Luo等人,2017)。虽然堆叠更多层可以扩展感受野,但对于捕捉结构化、高维领域中的全局特征关系来说往往不够。在NIR光谱数据中,这一限制尤为关键,因为相关模式可能分布在较宽的波长范围内。在这种情况下,准确的建模需要能够捕捉整个光谱输入中的长距离相互作用和上下文依赖关系的架构(Zhao等人,2025)。Jiang等人(2021)提出了一种完全基于Transformer的GAN(TransGAN),用自注意力机制替换了卷积层,以在图像生成任务中捕捉这些依赖关系。然而,TransGAN是为无条件图像合成开发的,不支持条件生成或结构化输入格式(如光谱数据)。为了克服这些架构和功能上的限制,本研究提出了一种基于光谱变换器的新架构——光谱变换器GAN(ST-GAN),专门用于条件生成合成光谱数据。ST-GAN结合了自注意力机制、位置编码和特定领域的损失函数,以提高生成光谱的质量和多样性。通过显式建模长距离光谱依赖关系,该架构解决了光谱数据生成中的关键问题,包括模式崩溃、过拟合和泛化能力差。
因此,本研究的主要目标是开发和评估ST-GAN作为一种生成框架,能够生成逼真的牛奶NIR光谱数据,同时解决类别不平衡问题并提高预测模型的性能。具体而言,本研究旨在:(i)通过整合Transformer模块和光谱特定损失函数来开发ST-GAN架构;(ii)将其生成性能与基线模型进行比较;(iii)使用定量指标和定性可视化技术评估生成的光谱;(iv)使用机器学习算法(如偏最小二乘回归(PLSR)、支持向量回归(SVR)、随机森林回归(RFR)和梯度提升回归(GBR)在真实数据和增强数据集上进行评估,以评估合成光谱对预测建模任务的影响。通过合成增强来解决数据稀缺和不平衡问题,本研究旨在提供一种更准确的牛奶质量参数预测模型工具。