AutoEncoder와 같이 encoder-decoder 기반 모델
일반적으로 encoder에서 채널을 늘리고 차원을 축소하며, decoder에서 채널을 줄이고 차원을 늘려 이미지를 복원한다.
U-Net은 skip connection을 줘서 고차원의 정보도 이용할 수 있도록 하고 gradient도 잘 흐르게 한다.
2개의 3x3 convolution layer, ReLU
2x2 max pooling with stride 2
Downsampling 동안 channel 2배로 늘린다.
attention_levels
에 포함되었다면, ResBlock
이후에 SpatialTransformer
를 적용한다.
실제 코드에서도 AttentionBlock
을 쓰거나 SpatialTransformer
를 기입하고 있다.