DAAM:首次利用视觉语言学解释大型扩散模型

出品人:Towhee 技术团队 张晨、顾梦佳

大规模扩散神经网络代表了文本到图像生成的一个重要里程碑,但它们仍然缺乏可解释性分析。DAAM 对最近开源的模型 Stable Diffusion 进行了文本-图像归因分析。为了生成像素级属性图,DAAM 在去噪子网络中放大和聚合交叉注意力字像素分数。通过归因分析,DAAM 主要研究了如何将语法关系转化为视觉交互,并关注了扩散模型中的视觉语言现象。通过定量语义分割任务和定性广义归因研究,证明了归因方法 DAAM 的正确性。DAAM 是第一个从视觉语言学的角度解释大型扩散模型,这使得未来的研究成为可能。

DAAM:首次利用视觉语言学解释大型扩散模型_第1张图片

The original synthesized image and three DAAM maps for “monkey,” “hat,” and “walking,” from the prompt, “monkey with hat walking.”

DAAM 在 Stable Diffusion 去噪逆扩散过程中选择了稍微靠后的步骤,进行可解释性研究。常规的归因分析通过梯度进行计算,但在扩散模型中无法进行梯度计算,因此 DAAM 选用词汇和特征图的得分的方式进行分析。通过评估句法关系如何转化为视觉互动,DAAM 发现某些注意力头不恰当地包含了他们的从属。因为,DAAM 得到了特征纠缠的假设,表明同位词是混乱的,而形容词的范围太广了。

相关资料:
代码地址:https://github.com/castorini/...
论文链接:What the DAAM: Interpreting Stable Diffusion Using Cross Attention
更多资料:https://blog.csdn.net/qq_4245...

你可能感兴趣的:(机器学习)