LRM:LARGE RECONSTRUCTION MODEL FOR SINGLE IMAGE TO 3D

Yicong Hong, Kai Zhang, Jiuxiang Gu, Sai Bi, Yang Zhou, Difan Liu, Feng Liu, Kalyan Sunkavalli, Trung Bui, Hao Tan

ICLR 2024 oral


Abstract

LRM : 하나의 이미지로 5초 만에 3D 복원을 하는 Large Reconstruction Model 제안

기존 방법

LRM

100만 개의 object(Objaverse synthetic renderings + MVImgNet’s real captures)가 포함된 대규모 multi-view data를 end-to-end 방식으로 훈련

이 같이 high-capacity model과 large-scale training data를 통해 일반화 성능이 좋고 고품질 3D 재구성 가능


Introduction

단일 뷰에서 3D geometry의 근본적인 모호성 → 조기의 learning-based 방식은 일반적으로 전체 모양을 추론하기 전에 카테고리 데이터를 활용해 특정 카테고리에 대해서 우수한 성능을 발휘

최근에는 diffusion의 발전으로 인해 2D 확산 모델의 일반화 성능을 이용해 멀티뷰를 가능하게 하는 연구 → 그러나 상당 수는 섬세한 매개변수 조절과 정규화가 필요하고 pre-trained 2D 생성 모델에 의해 결과가 제한

일관된 geometry를 구축하기 위해 per-shape optimization에 의존하는 접근법이 있지만 → 느리고 비실용적인 경우가 많다.

반면, NLP와 Image processing에서의 큰 성공은 3가지 요인에 기인한다

  1. 데이터 분포를 모델링하기 위해 Transformer같이 확장성이 높고 효과적인 신경망 사용
  2. Generic priors 학습을 위한 방대한 데이터셋
  3. 높은 확장성을 유지하며 모델이 기본 데이터 구조를 발견하도록 장려하는 self-supervised-like training objectives

예시) GPT : 1. transformer, 2. 대규모 데이터, 3. 간단한 다음 단어 예측 작업으로 대규모 언어 모델 구축

⇒ 3D도 동일하게 하면 generic 3D prior for reconstructing이 가능할까?

LRM