type
status
date
slug
summary
tags
category
icon
password
论文地址:

原文摘要翻译

少样本字体生成(Few-shot Font Generation,FFG)通过有限数量的参考样本生成风格化的字体图像,这能够显著降低手工字体设计的劳动力成本。现有的大多数 FFG 方法遵循风格-内容解耦的范式,并采用生成对抗网络(Generative Adversarial Network,GAN)通过结合解耦后的内容和风格表示来生成目标字体。在这些方法中,复杂的结构和精细的风格是同时生成的,这可能不是 FFG 任务的最优解。受专家设计师手工字体设计过程的启发,本文将字体生成建模为一个多阶段的生成过程。具体来说,由于扩散模型中的注入噪声和数据分布可以很好地分离到不同的子空间中,我们能够将字体转换过程引入这些模型中。基于这一观察,我们推广了扩散方法,通过将反向扩散过程分为三个具有不同功能的阶段来建模字体生成过程:首先,在结构构建阶段基于源图像生成目标字符的结构信息;接着,在字体转换阶段将源字体转换为目标字体;最后,字体优化阶段增强了目标字体图像的外观和局部细节。基于上述多阶段生成过程,我们构建了一个名为 MSD-Font 的字体生成框架,采用双网络方法生成字体图像。其卓越的性能证明了我们模型的有效性。代码已发布于:https://github.com/fubinfb/MSD-Font

1. 解决了什么问题?

核心任务是FFG(少样本字体生成)。想要一个输入为“待转换字体的文本”和“目标字体样式”,输出为“转换为目标字体样式的文本”的模型。

2. 核心思想

2.1 注入的噪声和数据分布可以很好地分离到不同的子空间

在扩散模型的前向过程(也称为噪声注入过程)中,数据逐渐被噪声污染,直到变成完全的噪声。扩散模型的一个重要特性是,数据与噪声的分布可以在不同的子空间中进行分离。这意味着,在这个过程中,模型能够有效地区分出不同的特征(子空间),这些特征可以分别对应不同的生成任务或功能。
  • 噪声和数据分布的分离:扩散模型通过逐渐添加噪声的方式将数据转化为噪声,这个过程是逐步进行的。由于噪声和数据的分布可以解耦(分离到不同的子空间),在模型的不同阶段,数据的结构信息(如字体的基本形状)和局部细节信息(如字体的风格、纹理)可以被分别处理。

2.2 可以将字体转换过程引入扩散模型

由于噪声和数据分布在不同子空间的解耦,使得可以在扩散模型中逐步处理不同的任务。例如,在字体生成任务中,我们可以将字体转换过程(从一种字体风格到另一种字体风格的过渡)引入模型的不同阶段,逐步完成字体的生成。这些阶段分别处理不同的生成任务,如:
  • 结构信息生成:首先生成字体的基本结构。
  • 字体转换:然后将源字体转换为目标字体的风格。
  • 细节优化:最后对生成的字体图像进行局部细节的完善和优化。
这种分阶段的处理方式与扩散模型的多步生成过程天然契合,因此可以高效地将字体转换融入扩散模型中,使得生成的字体具有更好的结构和细节。

2.3 有关研究表明,在图像生成阶段,扩散模型的不同步骤对于图像语义来说有不同的意义

[7] Jooyoung Choi, Jungbeom Lee, Chaehun Shin, Sungwon Kim, Hyunwoo Kim, and Sungroh Yoon. Perception prioritized training of diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 11472–11481, 2022. 2 [18] Mingi Kwon, Jaeseok Jeong, and Youngjung Uh. Diffusion models already have a semantic latent space. arXiv preprint arXiv:2210.10960, 2022. 2

3. 核心方法&创新点

notion image

3.1 融合方法

采取了两条 DM 分别对应原字体、目标字体的Denoise过程。最后按照某种方法融合这两个过程,便形成了基础的网络架构。
所谓某种融合方法指的是:令 Source Image 的Denoise过程为 , Target Image 的Denoise过程为 , 那么融合过后的网络 为:

4. 受什么启发?

论文中提到,他们是通过模仿人类艺术家创造字体的流程(提取框架结构,转换字体风格与细节优化)来构建网络的。不过我觉得它只是“故事汇”而已,毕竟他们是基于latent diffusion model的工作,并没有怎么设计网络结构,只是把latent diffusion model划分了三个阶段,各取了一个名字。
所以真实的启发或许就是用了下扩散模型?

5. 之前的工作存在的问题

  • 需要太多 目标字体-源字体对来训练模型
  • 效果不佳

6. 实验分析

 
Paper ReadingPX4·上手NxtPX4
Loading...