Fontify：通过上下文学习实现一键字体生成

生物通首页 > 今日动态 > 正文

Fontify：通过上下文学习实现一键字体生成

时间：2026年1月20日

来源：The Knee

编辑推荐：

自动字体生成通过结合内容-风格对与随机块状掩码训练，将字体生成转化为上下文感知的图像补全任务，实现单次样式示例下的高保真字形合成，在数字排版、艺术设计等领域具有应用潜力。

徐颖|朱向伟|李松源

东南大学信息科学与工程学院，南京，211189，中国

摘要

由于对快速创建风格化字型库的需求增加，自动字体生成技术引起了越来越多的关注。然而，现有方法通常依赖于预定义的风格先验、固定的风格嵌入或严格对齐的参考集，这限制了它们泛化到未见风格的能力——尤其是在一次性生成场景中。一次性字体生成的核心难点在于如何将内容笔画与风格模式对齐，这使得从单一参考中合成连贯的字型变得具有挑战性。为了解决这些限制，我们提出了Fontify，这是一个将字形合成重新定义为上下文感知的图像修复任务的框架。通过连接内容-风格对并在训练过程中应用随机块级掩蔽，模型能够从部分上下文线索中推断出缺失的风格细节。在推理阶段，Fontify通过视觉提示生成高保真度的字形，无需预定义的字体先验或显式的风格嵌入。广泛的实验表明，Fontify在已知和未见风格场景中的表现均优于现有方法，生成的字形具有更高的笔画保真度、更清晰的结构一致性和更好的感知真实性。我们的工作为字体生成引入了一种数据高效的范式，具有在数字排版、艺术设计和个性化字体创建中的潜在应用。代码可在以下链接获取：https://github.com/YingXu124/Fontify/。

引言

字体是视觉交流的基础，随着商业和创意应用中对自动化生成系统需求的增长，这一领域变得越来越重要。当用户希望为个性化文本应用吸引人的书法风格（见图1）但缺乏手动设计字体的专业知识时，就会出现一个关键挑战。这一挑战在中国等表意文字系统中尤为突出，因为这些系统包含超过6000个常用字符，使得手动创建字体非常耗时且需要专门的知识。因此，自动化字体生成已成为图像合成领域的一个长期研究问题。

现有的字体生成方法大致可以分为自上而下和自下而上的方法。自上而下的方法将字体生成视为一个整体的风格适应问题，侧重于全局风格迁移。早期的工作，如Zi2Zi [1]，将字体风格化定义为一种监督式的图像到图像的转换任务，需要大规模的成对训练数据。最近的方法采用了内容-风格解耦框架 [2]、[3]，其中内容结构和风格属性被分别编码并在合成过程中重新组合。尽管这些方法在已知风格分布下有效，但它们通常依赖于预定义的风格表示，并且难以泛化到未见或高度多样的风格。

相比之下，自下而上的方法旨在通过显式建模字符笔画和局部细节来提高结构保真度。典型的基于组件的方法 [4]、[5] 重用局部字形组件来增强笔画一致性，但往往依赖于预定义的组件注释或对齐先验，这些注释难以获得且容易出错，尤其是在复杂的文字系统中。其他方法结合了书写轨迹或向量表示 [6]、[7] 来细化书法细节；然而，它们对昂贵的轨迹注释的依赖限制了可扩展性和实际应用性。

尽管取得了实质性进展，但一个根本性的挑战仍然存在：对于高度风格化或书法风格的字体（如汉字），可靠地对齐字符内容与风格笔画是困难的，因为笔画变形、合并或省略使得组件或轨迹级别的对应关系本质上是不明确的。这一限制在一次性生成场景中尤为关键，因为此时只有一个风格示例可用，而字体生成通常依赖于难以定义或注释的强结构或笔画级先验。相比之下，人类的字体设计本质上是基于示例的：设计师可以通过推理视觉上下文从少数代表性字符中推断出连贯的字体风格，而无需依赖显式的笔画注释或预定义的结构规则。这一观察激发了我们转向基于上下文的视觉推理的思路。

受到视觉提示 [8]、[9] 中的上下文学习能力的启发，我们提出了一种将字体生成重新定义为上下文感知的图像修复任务的新型范式。上下文学习使模型能够在不更新模型参数的情况下根据提供的示例进行推理。这与人从有限的视觉线索中推断字体风格的方式非常相似。通过将风格示例视为视觉提示而不是固定的风格代码，我们的方法消除了对显式风格解耦、预定义轨迹或先验字体知识的需求。

具体来说，我们将字体生成定义为在可见的内容-风格图像对的基础上重建被掩蔽的风格块（见图2）。在训练过程中，内容和风格图像被连接成一个统一的输入，风格区域被随机掩蔽以模拟不完整的风格参考。模型通过利用可见内容和风格块之间的上下文关系来学习修复缺失的风格细节。在推理阶段（见图3），仅给定一个风格参考和目标内容，模型通过上下文学习合成风格化的字符，而不依赖于显式的先验。据我们所知，这项工作是首批明确将字形合成与基于掩蔽的图像修复相结合的工作之一。

我们的贡献有三个方面：

•

上下文感知的修复范式：我们提出了一种将字体生成重新定义为上下文感知的图像修复任务的范式，通过视觉上下文实现风格转移，而无需显式的内容-风格解耦。

•

一次性字体合成：模型从单个风格参考生成高质量的字形，优于需要多个示例的现有方法。

•

增强的细节保留：通过整合感知损失、笔画边缘损失和对抗损失，我们的框架有效地减轻了模糊和结构伪影，这一点通过在对未见风格和新内容的广泛实验中得到了验证。

部分内容片段

自上而下的方法

自上而下的方法将字体生成视为一个整体的风格转移问题，旨在在保持字符身份的同时将内容字符映射到目标风格。早期的方法，如Zi2Zi [1]、DCFont [10] 和 HGAN [11]，采用了监督式的图像到图像的转换框架，需要大规模的成对数据集。后来的方法，如Rewrite [12] 和 AEGG [13]，探索了卷积或自编码器架构来提高笔画保真度，但仍遵循相同的转换范式。

方法

本研究提出了Fontify，这是一个基于图像修复范式的新型神经字体生成框架。其核心创新在于将字体生成重新定义为上下文感知的图像完成任务，其中缺失的风格模式直接从提供的视觉上下文中推断出来。为此，多尺度视觉Transformer（ViT）架构与混合目标函数相结合，以实现高保真度和结构一致的字形合成。

实验设置

我们在[44]中介绍的数据集选取的230种字体上进行了训练，并在两种协议下进行了评估：已知风格，未知内容和未知风格，已知内容。所有实验都在配备6个NVIDIA Tesla T4 GPU（每个16 GB VRAM）和两个Intel(R) Xeon(R) Silver 4314 CPU（2.40GHz）的计算服务器上进行。完整的训练细节可在我们的GitHub仓库中找到：https://github.com/YingXu124/Fontify/。

优化使用了AdamW和余弦学习率调度。