📔论文笔记1-Hierarchical Text-Conditional Image Genertion with CLIP Latents

2022-05-11 Views 论文笔记 | 研究595字3 min read

Hierarchical Text-Conditional Image Genertion with CLIP Latents

DALL-E2的核心,OpenAI在2022年4月公开的图像生成与编辑算法

三大核心功能:

  • 由原图生成相似图像

  • 两幅图像之间插值

  • 根据语言对图像做出指定的编辑

核心思想: 分两步生成图像,第一步称为prior,根据文字生成图像编码;第二步称为decoder,根据图像编码和可选的文字编码生成图像,使用了diffusion model。

(x,y)(x,y)为图像-文本对,(zi,zt)(z_i,z_t)为图像、文本的CLIP编码,这些数据被用于训练以上两个模型。

图像操作

给定图像xx可以获得隐编码(zi,xT)(z_i,x_T),其中ziz_i为CLIP编码,xTx_T为使用decoder对xx应用DDIM inversion。

图像变体

获得隐编码时引入随机采样,获得在原图“附近”的图像

图像插值

两幅图像的隐编码间线性插值,而后解码出图象。ziz_i为线性插值,xTx_T的获取方式分随机向量(图像异于两幅原图)和线性插值(两端图像和两幅原图相同)两种。

文本编辑

根据文本的差向量旋转图像编码ziz_i。文本差向量使用zd=norm(ztzt0)z_d=\text{norm}(z_t-z_{t_0})获得。

CLIP隐空间的探索

CLIP的隐编码虽然可能在排版攻击(typographic attack)下无法正确分类样本,但decoder恢复的图像可能不受干扰。说明编码确实包含了足够信息,只是分类器无法准确复原信息。

PCA重建可以发现CLIP编码包含了从高到低不同层级的语义信息。

文本到图像生成

尽管只用decoder部分就可以生成图像,但结合prior部分的unCLIP两步模型效果最好。

人工验证表明diffusion比AR更适合作为prior,而unCLIP比GLIDE在多样性上优秀很多。定性分析表明unCLIP比GLIDE在增加guidance scale(?)时表现更好。增大guidance时,unCLIP受的FID影响比GLIDE小很多。

unCLIP在MS-COCO上的FID获得了目前最好的zero-shot表现

艺术性比较,unCLIP也比GLIDE好

不足

物品和属性的绑定上存在困难,生成有文字的图像也存在困难

复杂场景下呈现细节比较难

包含不好内容

EOF