Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or
arXiv 2022
Language-Guided model이 어떻게 원하는일을 할 수 있을까?
새로운 접근 방식 소개
object나 스타일 같은 유저가 제공한 컨셉 이미지 3~5장만 사용
frozen T2I 모델의 embedding space에 새로운 “단어”를 통해 이를 표현하는 방법
single word embedding만으로도 독특하고 다양한 개념을 capture하는데 충분하다는 증거 발견
대규모 T2I model은 자연어 설명을 추론하는 훌륭한 능력 입증 → 하지만 사용자가 원하는 대상을 텍스트로 설명해야한다는 제약이 존재.
대규모 모델에 새로운 concept을 도입하는 것 = 어려운 일. 왜?→각각의 개념에 대해 확장된 데이터 세트로 re-training은 cost가 많이 들고, fine-tuning은 일반적으로 치명적인 forgetting으로 이어질 수 있다.
모델을 freeze하고 transformation module을 훈련시켜서 새로운 Concept을 직면했을 때 그 출력을 조정하는 방식이 있다.
이러한 접근 방식들 여전히 사전 지식을 잊기 쉽거나 새로 학습한 개념과 동시에 접근하는 데 어려움을 겪는다.
pre-trained T2I 모델의 textual embedding space에서 new word를 찾아서 위 문제를 극복하려 한다.
Text encoding process의 첫 번째 단계