type
status
date
slug
summary
tags
category
icon
password
Jiang R, Zheng GC, Li T et al. A survey of multimodal controllable diffusion models. JOURNAL OF COMPUTER SCIENCE AND TECHNOLOGY 39(3): 509−541 May 2024. DOI: 10.1007/s11390-024-3814-0

原文摘要翻译

扩散模型最近作为强大的生成模型出现,能够在多个领域生成高保真度的样本。尽管如此,它们仍面临两个关键挑战:改进耗时的迭代生成过程以及控制和引导生成过程。现有的综述提供了关于扩散模型进展的广泛概述,但缺乏专门针对可控生成技术的全面覆盖。本综述旨在填补这一空白,通过对扩散模型中的可控生成进行全面且连贯的回顾。我们提供了一个详细的分类体系,定义了扩散模型中的可控生成。可控生成根据公式化、方法学和评估指标进行分类。通过列举研究人员为增强控制性而开发的各种方法,我们旨在将可控扩散生成建立为一个独立的子领域,值得专门关注。通过这篇综述,我们将把最近的研究成果置于背景之中,专门讨论可控扩散模型生成,并概述其局限性和未来发展方向。为了展示其应用性,我们重点介绍了可控扩散技术在主要计算机视觉任务中的应用。通过整合可控扩散模型的方法和应用,我们希望进一步推动在可靠且可扩展的可控生成领域中的创新。

笔记


最近,生成模型领域经历了一个范式转变,标志着扩散模型(Diffusion Models)的出现。这一新型的深度生成模型家族为概率建模带来了易于理解的参数化方法,其训练过程稳定且有理论基础支撑,并采用了一个统一且简单的损失函数。扩散模型的结构组件围绕着三个关键要素:正向过程(Forward Process)反向过程(Reverse Process)和用于采样的去噪过程(Denoising Procedure)
  • 正向过程 的设计目的是将数据分布逐渐转化为随机噪声
  • 反向过程 使用一个可学习的神经网络逐步估计变换核,以逆转正向过程的每一步,如 [8] 所述。
  • 采样过程 从随机噪声开始,并利用优化后的网络生成数据。采样过程与反向过程的区别在于,采样时使用的网络已经经过优化,并仅用于推理。
这三个组件可以以离散[9, 10]或连续[11, 12]的方式实现。

关键词解释:

  1. 范式转变(Paradigm Shift)
      • 这是指在某个领域中出现了新的理论或方法,彻底改变了原有的研究和实践方式。在这里,扩散模型的出现被认为是一个范式转变,因为它引入了完全不同于之前生成模型(如 GANs、VAEs)的生成机制。
  1. 扩散模型(Diffusion Models)
      • 一类新型的深度生成模型,通过正向过程逐步将数据变成噪声,再通过反向过程一步步去除噪声,最终还原出数据。扩散模型以其稳定的训练过程和高质量的生成效果,在生成模型领域迅速崛起。
  1. 概率建模(Probabilistic Modeling)
      • 这是用概率论的方式对数据进行建模,目的是描述数据的分布。在生成模型中,概率建模用于捕捉数据的复杂分布,以生成新的样本。
  1. 正向过程(Forward Process)
      • 指的是将原始数据逐步转换为随机噪声的过程。在扩散模型中,这相当于逐步破坏数据,使其变为一种完全无结构的随机状态。
  1. 反向过程(Reverse Process)
      • 反向过程是扩散模型中的核心部分,它通过一个可学习的神经网络,逐步逆转正向过程中添加的噪声,最终生成新的数据。这个过程与去噪有密切关系。
  1. 去噪过程(Denoising Procedure)
      • 在扩散模型中,去噪过程是从噪声中生成数据的关键步骤。它通过一个训练好的网络逐步去除噪声,生成符合数据分布的样本。
  1. 采样过程(Sampling Procedure)
      • 采样过程是扩散模型中用于生成数据的步骤。与反向过程不同,采样使用的是已经训练好的网络,并且只用于生成数据而不再进行训练。
  1. 离散与连续实现(Discrete and Continuous Implementations)
      • 这指的是扩散模型的两种实现方式。离散实现是在有限的时间步长上进行处理,而连续实现则是在时间的连续域中处理噪声和数据的转换过程。

然而,必须认识到,扩散模型在采样过程中本质上比 GANs 或 VAEs 更耗时[13]。这一较长的时间过程可以归因于通过常微分方程(ODE)随机微分方程(SDE)[14–17]或马尔可夫过程将先验分布逐步转换为更复杂的数据分布的迭代变换,这需要在过程中进行大量的函数评估。额外的挑战还包括生成过程的控制与引导

关键词解释:

  1. 采样过程(Sampling Procedure)
      • 采样过程是指生成模型从噪声等简单分布中生成复杂数据的步骤。在扩散模型中,采样过程是逐步进行的,通常需要多次迭代,因此比其他生成模型(如 GANs 和 VAEs)更加耗时。
  1. GANs(生成对抗网络, Generative Adversarial Networks)VAEs(变分自编码器, Variational Autoencoders)
      • 这两类生成模型是生成任务中的常见方法。GANs 通过生成器和判别器的对抗训练生成数据,而 VAEs 是通过编码器-解码器结构生成数据。它们的采样过程相比扩散模型通常更快。
  1. 常微分方程(ODE, Ordinary Differential Equation)随机微分方程(SDE, Stochastic Differential Equation)
      • ODESDE 是数学上用于描述变化过程的方程。在扩散模型中,它们用于定义数据从简单分布(如高斯分布)逐步转换为复杂分布的过程。
      • ODE 是确定性的,而 SDE 则引入了随机性,能够更好地模拟带有随机噪声的生成过程。
  1. 马尔可夫过程(Markov Process)
      • 马尔可夫过程是一种随机过程,当前状态仅依赖于前一个状态,与更早的状态无关。在扩散模型中,马尔可夫过程用于逐步去噪并生成数据。
  1. 函数评估(Function Evaluations)
      • 在扩散模型的迭代生成过程中,每一步都需要评估生成函数的输出。这些评估需要大量的计算资源,因此导致了较长的生成时间。
  1. 生成过程的控制与引导(Control and Steering of the Generation)
      • 这是指在生成过程中能够控制生成数据的特定属性或特征,例如控制生成图像的风格、内容或结构。这是扩散模型面临的一个重要挑战,因为它们的生成过程通常是较为自由的。

对此,研究人员积极提出了一系列解决方案,以应对与扩散模型相关的挑战。为了加快采样过程,提出了基于常微分方程(ODE)或随机微分方程(SDE)[14-17]的高级求解器,以及模型蒸馏技术[18]。同时,研究人员还探索了引导机制,通过引导条件来修正无条件生成的方向[19],从而减少目标分布[20]与参考条件分布[21]之间的差异。这样的条件可以涉及多种模态[22, 23],包括图像[24]、文本[25]或2D姿态[26, 27]。

关键词解释:

  1. 高级求解器(Advanced Solvers)
      • 这是指用于加速扩散模型中 ODE 或 SDE 的数值求解方法。高级求解器可以减少计算的复杂度,从而加快采样过程。
  1. 常微分方程(ODE, Ordinary Differential Equation)随机微分方程(SDE, Stochastic Differential Equation)
      • ODE 是一种确定性的方程,用于描述系统随时间变化的过程。SDE 则引入了随机性,适用于具有噪声或不确定因素的系统。扩散模型通常基于这些方程来描述数据从噪声到生成数据的逐步转化过程。
  1. 模型蒸馏技术(Model Distillation Techniques)
      • 这是一种通过简化复杂模型来提升效率的技术。模型蒸馏将一个复杂的模型(教师模型)的知识传递给一个较小的模型(学生模型),从而减少计算成本并加快生成速度。
  1. 引导机制(Guidance Mechanisms)
      • 引导机制是在扩散模型中通过某些条件(如文本或图像)来引导生成过程,从而修正无条件生成的方向,确保生成的样本更符合目标条件。例如,在图像生成中,利用文本描述来引导生成的图像内容。
  1. 无条件生成的方向(Unconditional Direction)
      • 无条件生成是指不依赖于任何特定条件的生成过程。在扩散模型中,生成过程可能会偏离目标分布,因此需要通过引导机制来修正生成方向。
  1. 目标分布(Desired Distribution)参考条件分布(Reference Conditional Distribution)
      • 目标分布是指生成模型希望达到的理想数据分布,通常是根据给定条件(如图像或文本)生成的特定分布。
      • 参考条件分布是基于某些条件(如提供的文本描述)所确定的分布,模型的目标是尽量使生成的分布与这个参考分布一致。
  1. 模态(Modalities)
      • 模态指的是不同形式的数据类型。在多模态生成任务中,模态可以包括图像文本音频姿态等,扩散模型可以在多种模态之间进行条件生成。
  1. 图像(Images)、文本(Texts)、2D姿态(2D Poses)
      • 这些是不同的数据模态。例如,扩散模型可以通过提供条件图像生成新的图像,或者基于文本描述生成图像,甚至可以根据给定的2D姿态生成符合该姿态的图像。

接下来是对于生成式模型的可控分析:
notion image
这张图从四个方面介绍了扩散模型现在的发展情况。第一个是综合介绍扩散模型的框架结构,第二点介绍了“如何控制生成式模型”,第三第四则立足于当前的应用和未来的方向。不过我看这张图还没有介绍模态修复,那就仔细看看如何控制生成式模型了。
 
【Python】有关于import的用法【NIPS 2023】Incomplete Multimodality-Diffused Emotion Recognition
Loading...