Dmitry Tochilkin, David Pankratz, Zexiang Liu, Zixuan Huang, Adam Letts, Yangguang Li, Ding Liang, Christian Laforte, Varun Jampani, Yan-Pei Cao

CVPR 2023

Untitled

Abstract

TripoSR

3D reconstruction model.
fast feedforward 3D 생성을 위해 transformer architecture 활용
0.5초 내에 단일 이미지로부터 3D mesh를 생성
LRM 네트워크 아키텍처 기반
데이터 처리, 모델 설계, 훈련 테크닉에서 하위 단계의 개선 사항을 통합

Introduction

3D 생성은 발전을 거듭하고 있다. (3D reconstruction from single or few views + 3D generation) + 대규모 공개 3D 데이터 세트와 생성모델 아키텍처의 발전으로 인한 가속화

3D 훈련 데이터 부족 → 2D diffusion model을 통해 text prompt 또는 입력 이미지에서 3D 에셋을 생성하는 방법으로 극복 (예. DreamFusion에서 Score Distillation Sampling) → 최적화 및 계산 요구사항이 많다. 출력 모델을 정밀하게 제어해야한다. 생성 속도가 느리다.

Feed-forward 3D reconstruction은 더 좋은 계산 효율성.

TripoSR 모델
- A100에서 0.5초도 안걸리는 단일이미지 fast feed-forward 3D reconstruction을 위함

TripoSR: Data and Model Improvements

TripoSR의 설계는 Large Reconstruction Model(LRM) 기반

Model Overview

LRM과 유사하게, TripoSR은 Transformer architecture 활용

핵심
- Image encoder
- Image-to-Triplane decoder
- Triplane-based Neural Radiance Field (NeRF)
Image Encoder : Pre-trained ViT 모델인 DINOv1로 초기화
- RGB 이미지를 일련의 latent vector로 투사
- Latent vector는 이미지의 global, local feature를 인코딩 + 3D 객체를 reconstruction 하는 데 필요한 정보 포함