
AutoEncoder와 같이 encoder-decoder 기반 모델
일반적으로 encoder에서 채널을 늘리고 차원을 축소하며, decoder에서 채널을 줄이고 차원을 늘려 이미지를 복원한다.

U-Net은 skip connection을 줘서 고차원의 정보도 이용할 수 있도록 하고 gradient도 잘 흐르게 한다.



2개의 3x3 convolution layer, ReLU
2x2 max pooling with stride 2
Downsampling 동안 channel 2배로 늘린다.


attention_levels에 포함되었다면, ResBlock 이후에 SpatialTransformer를 적용한다.
실제 코드에서도 AttentionBlock을 쓰거나 SpatialTransformer를 기입하고 있다.
