Semantic factorization 调研

Semantic Hierarchy Emerges in Deep Generative Representations for Scene Synthesis

背景

首先是背景,背景就是 GAN 在图片合成领域表现优异

动机

动机是现在目标检测的解释性工作比较多,对于 GAN 这种生成模型的解释性工作还比较少

目标

研究目标是探究下语义层级信息在 layer-wise 输入的 GAN 模型中的表现,这里可以看到两个图,左图是本文章主要探究的几个语义属性,比如 layout(格局),category(种类),attribute 和 color;右图是不同类型的 GAN,一般的 GAN 都是直接输入网络,但是 StyleGAN 的变量是 layer-wise 进去的。
若能够学习到层次性的关系,比如模型画画也先画布局,再画物体、光线…那么就和人类似了!

方法

先看下本文定义的多种语义,对于 bedroom 和 living room 这两种场景,有以下的定义: attribute 就是用不同的分类器分出来的, layout 是提取墙的线得到的,object 是场景分割得到的

具体的方法就是 SVM 和 Re-score,就是在 GAN 的 latent space 中,每个点对应着 image space 中的一张图片,同时也对应着 semantic space 中的多种语义。Sample 一定量的图片后,用预训练好的分类器去获取他们对应的不同语义(对于某个属性,每个点代表的图片是属于哪一类值),接着对于某个属性,用一个 SVM 在 latent space 中学一个超平面,得到支持向量 n(可以分割开针对该属性属于不同类的样本),那么超平面就是这个模型中的语义向量,和 InterfaceGAN 的方法几乎一样,不过 InterfaceGAN 处理的对象是 face,face 是容易定义的,而本文处理的是 scene,scene 的变化是很大的。

在获取了语义向量后,我们用 Re-score 来衡量这个语义方向,也就是说看编辑前后图片的语义变化程度,公式在下面,K 是样本数

验证完毕后,文章有三种编辑的手段,第一张很简单,就是在 latent space 中向语义的方向推,第二种是向两个语义方向的加和方向推,第三种是在推的时候加一点随机扰动

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享