새로운 프레임 워크 : diffusion feature space에서 original과 translated contents 사이의 semantic association에 의존 + DDIM inversion에 의존⇒ 영역이 임의로 색상이 지정되는 세부적인 label segmentation mask에서는 잘 작동하지 않는다.
충실도 평가를 위해 text-image CLIP cosine similarity와 구조 보존 정도 평가를 위해 DINO-ViT self-similarity 지표 사용
P2P는 레이아웃을 대략적으로 보존하고 목표 편집을 만족하기 어려운 것을 확인. → text와 함께 DDIM을 적용하기에 샘플링시 낮은 가이드 스케일을 사용해야 하기 때문인 것으로 추정. 반면, 본 논문은 빈 prompt를 사용해 DDIM inversion을 수행하므로 생성시 임의의 guidance scale이나 prompt를 사용할 수 있다.
SDEdit은 노이즈 레벨에 따라 trade-off가 생긴다. VQGAN+CLIP은 전반적으로 품질이 낮다. DiffuseIT는 fidelity는 좋고 외관의 변화는 거의 없다.
또한, Text2LIVE, FlexIT, DiffusionCLIP과 질적 비교
text-guided I2I task에 적용할 수 있는 SOTA를 중심으로 비교 : SDEdit under 3 different noising levels, Prompt-to-Prompt, DiffuseIT, VQGAN-CLIP
2가지 새로운 데이터셋
negative-prompt는 텍스텨가 없는 primitive 가이드 이미지(실루엣 같은) 처리에 유용하다. natural-looking 가이드 이미지에는 효과가 미미하다고 한다.
$$ \epsilon = w\epsilon_\theta(x_t,P,t)+(1-w)\tilde\epsilon $$