被删除却未真正消失：神经网络水印的重新激活

时间：2026年2月16日

来源：ACM Transactions on Intelligent Systems and Technology

编辑推荐：

保护深度学习模型的知识产权面临水印被攻击的挑战，本文提出无需原始参数或训练数据即可重新激活水印的方法。通过将重激活建模为优化问题，利用投影梯度下降搜索有效触发输入，结合正则化技术确保触发输入与正常输入隐蔽性一致。实验表明该方法在CIFAR-10等数据集上成功恢复90%以上被剪枝、微调或代理模型攻击破坏的水印，同时保持模型性能和隐蔽性。水印存在系数的引入为攻击条件下的可行性评估提供理论依据。

摘要

随着深度神经网络（DNN）在关键应用中的重要性日益增加，保护其知识产权（IP）变得至关重要。神经网络水印技术是一种将唯一标识符嵌入模型中的方法，用以声明所有权并阻止未经授权的使用。然而，复杂的攻击手段可以破坏或移除这些水印，而不会显著影响模型性能，从而削弱现有的保护策略。在本文中，我们首次提出了一种无需访问原始模型参数或训练数据即可重新激活被破坏的神经网络水印的方法。通过将重新激活过程表述为一个优化问题，我们采用投影梯度下降算法来识别能够恢复嵌入水印的新触发输入。同时，我们引入了正则化技术，以确保这些触发输入看起来与合法输入相似，从而提高隐蔽性和实用性。通过对各种基准数据集和模型架构的实验，我们证明了该方法在面对常见模型修改（如微调、剪枝和替代模型攻击）时的有效性。我们的工作填补了DNN IP保护领域的一个关键空白，提供了一种强大且实用的解决方案。这使得模型所有者即使在面对先进的对抗性策略时也能维护自己的权利。

AI摘要

AI生成摘要（实验性)

此摘要是由自动化工具生成的，并非由文章作者撰写或审核。它旨在帮助读者发现研究内容的相关性，并辅助来自相关研究领域的读者理解本文。它是对作者提供的摘要的补充，而作者提供的摘要仍是文章的正式摘要。完整文章才是权威版本。点击此处了解更多。

点击此处对摘要的准确性、清晰度和实用性进行评论。您的反馈将有助于改进未来的版本。

AI生成摘要

该摘要由基于已发表文章文本的自动化系统生成。

版本创建于2026年2月6日。

本文探讨了神经网络水印（嵌入模型中的唯一标识符）在面对微调、剪枝和替代模型等高级攻击时的脆弱性。这些攻击常常会破坏或移除水印，而不会显著降低模型性能，导致所有者无法验证其知识产权。这暴露了当前深度学习IP保护中的一个关键弱点。

为了解决这个问题，作者提出了一种新的水印重新激活方法，该方法可以在无需访问原始训练数据或参数的情况下对修改后的模型进行操作。该方法将重新激活过程表述为一个优化问题，并通过投影梯度下降算法来解决。该方法寻找能够恢复水印可检测性的新触发输入，同时应用正则化技术使这些触发输入在视觉上与合法输入相似，从而保持隐蔽性和实用性。通过利用修改后模型参数空间中的残余水印痕迹和学习到的激活值，该方法能够找到附近的最佳触发输入以重新激活水印。

该方法适用于白盒（可访问参数）和黑盒（仅可查询）环境。在黑盒环境中，它通过查询来近似梯度，采用零阶优化方法，适用于云服务等实际场景。理论分析保证了收敛性，并确保了解决方案的存在性。此外，多起点重启和平滑处理等机制进一步增强了系统的鲁棒性。

在包括CIFAR-10、CIFAR-100、GTSRB在内的多个基准数据集以及多种模型架构上的广泛实验表明，即使在经过多种移除攻击后，该方法的成功率仍超过90%。该方法在保持原始任务准确性的同时，生成的触发输入在视觉上几乎不可察觉，这一点通过峰值信噪比和结构相似性指数指标得到了验证。

此外，分析显示恢复成功率与新定义的水印存在系数之间存在强相关性——该系数用于量化残余水印的强度，有助于预测不同攻击条件下的重新激活可行性。

总之，这项工作通过提出一种有效且基于理论的解决方案来填补了现有研究的空白，无需原始数据或参数即可恢复被破坏的神经网络水印。其在多个数据集上的有效性表明，它是一种实用的工具，能够帮助合法所有者即使在面对复杂的对抗性威胁时也能维护其知识产权。