Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, Yan-Pei Cao
CVPR 2023
TripoSR
3D 생성은 발전을 거듭하고 있다. (3D reconstruction from single or few views + 3D generation) + 대규모 공개 3D 데이터 세트와 생성모델 아키텍처의 발전으로 인한 가속화
3D 훈련 데이터 부족 → 2D diffusion model을 통해 text prompt 또는 입력 이미지에서 3D 에셋을 생성하는 방법으로 극복 (예. DreamFusion에서 Score Distillation Sampling) → 최적화 및 계산 요구사항이 많다. 출력 모델을 정밀하게 제어해야한다. 생성 속도가 느리다.
Feed-forward 3D reconstruction은 더 좋은 계산 효율성.
TripoSR의 설계는 Large Reconstruction Model(LRM) 기반
LRM과 유사하게, TripoSR은 Transformer architecture 활용
핵심
Image Encoder : Pre-trained ViT 모델인 DINOv1로 초기화