字体是视觉交流的基础,随着商业和创意应用中对自动化生成系统需求的增长,这一领域变得越来越重要。当用户希望为个性化文本应用吸引人的书法风格(见图1)但缺乏手动设计字体的专业知识时,就会出现一个关键挑战。这一挑战在中国等表意文字系统中尤为突出,因为这些系统包含超过6000个常用字符,使得手动创建字体非常耗时且需要专门的知识。因此,自动化字体生成已成为图像合成领域的一个长期研究问题。
现有的字体生成方法大致可以分为自上而下和自下而上的方法。自上而下的方法将字体生成视为一个整体的风格适应问题,侧重于全局风格迁移。早期的工作,如Zi2Zi [1],将字体风格化定义为一种监督式的图像到图像的转换任务,需要大规模的成对训练数据。最近的方法采用了内容-风格解耦框架 [2]、[3],其中内容结构和风格属性被分别编码并在合成过程中重新组合。尽管这些方法在已知风格分布下有效,但它们通常依赖于预定义的风格表示,并且难以泛化到未见或高度多样的风格。
相比之下,自下而上的方法旨在通过显式建模字符笔画和局部细节来提高结构保真度。典型的基于组件的方法 [4]、[5] 重用局部字形组件来增强笔画一致性,但往往依赖于预定义的组件注释或对齐先验,这些注释难以获得且容易出错,尤其是在复杂的文字系统中。其他方法结合了书写轨迹或向量表示 [6]、[7] 来细化书法细节;然而,它们对昂贵的轨迹注释的依赖限制了可扩展性和实际应用性。
尽管取得了实质性进展,但一个根本性的挑战仍然存在:对于高度风格化或书法风格的字体(如汉字),可靠地对齐字符内容与风格笔画是困难的,因为笔画变形、合并或省略使得组件或轨迹级别的对应关系本质上是不明确的。这一限制在一次性生成场景中尤为关键,因为此时只有一个风格示例可用,而字体生成通常依赖于难以定义或注释的强结构或笔画级先验。相比之下,人类的字体设计本质上是基于示例的:设计师可以通过推理视觉上下文从少数代表性字符中推断出连贯的字体风格,而无需依赖显式的笔画注释或预定义的结构规则。这一观察激发了我们转向基于上下文的视觉推理的思路。
受到视觉提示 [8]、[9] 中的上下文学习能力的启发,我们提出了一种将字体生成重新定义为上下文感知的图像修复任务的新型范式。上下文学习使模型能够在不更新模型参数的情况下根据提供的示例进行推理。这与人从有限的视觉线索中推断字体风格的方式非常相似。通过将风格示例视为视觉提示而不是固定的风格代码,我们的方法消除了对显式风格解耦、预定义轨迹或先验字体知识的需求。
具体来说,我们将字体生成定义为在可见的内容-风格图像对的基础上重建被掩蔽的风格块(见图2)。在训练过程中,内容和风格图像被连接成一个统一的输入,风格区域被随机掩蔽以模拟不完整的风格参考。模型通过利用可见内容和风格块之间的上下文关系来学习修复缺失的风格细节。在推理阶段(见图3),仅给定一个风格参考和目标内容,模型通过上下文学习合成风格化的字符,而不依赖于显式的先验。据我们所知,这项工作是首批明确将字形合成与基于掩蔽的图像修复相结合的工作之一。
我们的贡献有三个方面:
•上下文感知的修复范式:我们提出了一种将字体生成重新定义为上下文感知的图像修复任务的范式,通过视觉上下文实现风格转移,而无需显式的内容-风格解耦。
•一次性字体合成:模型从单个风格参考生成高质量的字形,优于需要多个示例的现有方法。
•增强的细节保留:通过整合感知损失、笔画边缘损失和对抗损失,我们的框架有效地减轻了模糊和结构伪影,这一点通过在对未见风格和新内容的广泛实验中得到了验证。