【AI论文】GigaTok:将视觉标记器扩展到30亿参数以实现自回归图像生成

【AI论文】GigaTok:将视觉标记器扩展到30亿参数以实现自回归图像生成_第1张图片

摘要:在自回归(AR)图像生成中,视觉标记器将图像压缩成紧凑的离散潜在标记,通过下一个标记预测,实现对下游自回归模型的有效训练,以进行视觉生成。 虽然缩放视觉标记器可以提高图像重建质量,但它往往会降低下游生成质量——这是现有文献中没有充分解决的挑战。 为了解决这个问题,我们引入了GigaTok,这是第一种在缩放视觉标记器时同时改进图像重建、生成和表示学习的方法。 我们认为,潜在空间日益增长的复杂性是重建与生成困境背后的关键因素。 为了缓解这一问题,我们提出了语义正则化,它将分词器的特征与预训练的视觉编码器的语义一致的特征对齐。 这种约束可以防止缩放过程中潜在的复杂性过高,从而在重建和下游自回归生成方面产生一致的改进。 在语义正则化的基础上,我们探索了三种扩展分词器的关键实践:(1)使用1D分词器以获得更好的可扩展性,(2)在扩展编码器和解码器时优先考虑解码器扩展,以及(3)采用熵损失来稳定十亿级分词器的训练。 通过扩展到30亿个参数,GigaTok在重建、下游AR生成和下游AR表示质量方面达到了最先进的性能。Huggingface链接:Paper page,论文链接:2504.08736

研究背景和目的

研究背景

随着深度学习技术的飞速发展,尤其是大型语言模型(LLMs)在自然语言处理领域的成功应用,自回归(AR)模型在图像生成领域也逐渐展现出巨大的潜力。AR图像生成模型通过预测下一个标记来生成图像,这种生成方式不仅能够模拟复杂的视觉分布,还能够实现高效的视觉生成。然而,AR图像生成模型依赖于一个关键的组件——视觉标记器(Visual Tokenizer),它将图像压缩成紧凑的离散潜在标记,为下游的AR模型提供有效的输入。

尽管现有的视觉标记器在图像重建方面取得了一定的成果,但在扩展其规模以提高重建质量时,往往会遇到重建质量与下游生成质量之间的权衡问题。具体来说,随着标记器规模的增加,虽然图像重建质量得以提升,但下游AR模型的生成质量却可能下降。这种困境在现有文献中并未得到充分解决,限制了AR图像生成模型的进一步发展。

研究目的

本研究的主要目的是探索一种有效的策略,以在扩展视觉标记器规模的同时,同时提高图像重建质量、下游AR生成质量和表示学习质量。具体而言,研究旨在:

  1. 解决重建与生成困境:通过提出新的方法,减少视觉标记器规模扩展过程中潜在空间复杂性的增加,从而同时提高图像重建质量和下游AR生成质量。
  2. 提升表示学习质量:通过改进视觉标记器,使得下游AR模型能够学习到更好的视觉表示,为未来的多模态理解和生成模型奠定基础。
  3. 扩展视觉标记器规模:探索将视觉标记器扩展到数十亿参数规模的有效方法,以实现更高质量的图像生成和表示学习。

研究方法

提出语义正则化

为了解决重建与生成困境,本研究提出了语义正则化方法。该方法通过预训练的视觉编码器提供的语义一致特征来正则化标记器的特征,从而防止在扩展标记器规模时潜在空间复杂性过高。具体地,语义正则化损失被添加到标记器的训练目标中,以鼓励标记器特征与预训练视觉编码器特征之间的高相似性。

探索标记器扩展的最佳实践

在语义正则化的基础上,本研究探索了三种扩展视觉标记器的关键实践:

  1. 使用1D标记器以获得更好的可扩展性:相比于2D标记器,1D标记器在扩展时表现出更好的可扩展性。本研究设计了基于Q-Former的1D标记器架构,并在实验中验证了其优越性。
  2. 在扩展编码器和解码器时优先考虑解码器扩展:由于解码器面临从有损潜在标记中重建图像的更具挑战性的任务,因此在扩展标记器时优先考虑解码器的扩展。
  3. 采用熵损失来稳定十亿级标记器的训练:在训练数十亿参数的标记器时,采用熵损失来鼓励更高的代码本使用率,从而稳定训练过程。

实验设置

为了验证所提出方法的有效性,本研究在ImageNet数据集上进行了大量实验。实验中使用了不同规模的视觉标记器,并训练了下游的AR生成模型来评估生成质量和表示学习质量。此外,还引入了AR探测(AR Probing)方法,通过训练一个小型AR模型来有效监测标记器对下游生成的有效性。

研究结果

解决重建与生成困境

实验结果表明,通过语义正则化,GigaTok成功解决了视觉标记器扩展过程中的重建与生成困境。与没有语义正则化的标记器相比,GigaTok在扩展标记器规模时,不仅提高了图像重建质量,还显著提升了下游AR生成质量。

提升表示学习质量

通过扩展视觉标记器规模并结合语义正则化,下游AR模型能够学习到更好的视觉表示。实验结果显示,使用GigaTok标记器训练的AR模型在线性探测准确率方面取得了显著提升,表明其学习到的表示具有更好的泛化能力。

扩展视觉标记器规模

GigaTok成功地将视觉标记器扩展到30亿参数规模,并在重建、下游AR生成和下游AR表示质量方面达到了最先进的性能。这证明了所提出方法在扩展视觉标记器规模方面的有效性。

研究局限

尽管GigaTok在扩展视觉标记器规模方面取得了显著成果,但仍存在一些局限性:

  1. 应用场景限制:本研究主要关注于类条件图像生成,尚未探索文本条件图像生成或视频生成等更广泛的应用场景。
  2. 多分辨率适用性:与基于CNN的2D标记器不同,基于1D Transformer的标记器在不经过额外训练调整的情况下,无法直接应用于多个分辨率。
  3. 其他因素影响:除了标记器规模外,训练数据规模、代码本维度和代码本大小等因素对下游AR生成的影响尚未得到充分研究。

未来研究方向

针对上述局限性,未来的研究可以从以下几个方面展开:

  1. 扩展应用场景:探索将GigaTok应用于文本条件图像生成、视频生成等更广泛的场景,以验证其泛化能力。
  2. 提高多分辨率适用性:研究如何在不经过额外训练调整的情况下,使基于1D Transformer的标记器适用于多个分辨率。
  3. 研究其他影响因素:深入分析训练数据规模、代码本维度和代码本大小等因素对下游AR生成的影响,以进一步优化模型性能。
  4. 改进语义正则化:探索更有效的语义正则化方法,以进一步提高图像重建质量和下游AR生成质量。
  5. 扩展标记器规模:继续研究如何将视觉标记器扩展到更大规模,以实现更高质量的图像生成和表示学习。

综上所述,本研究通过提出语义正则化方法和探索标记器扩展的最佳实践,成功解决了视觉标记器扩展过程中的重建与生成困境,并实现了高质量的图像生成和表示学习。未来的研究将在此基础上进一步拓展应用场景、提高多分辨率适用性、研究其他影响因素,并探索更有效的语义正则化方法和更大的标记器规模。

你可能感兴趣的:(人工智能,回归,数据挖掘)