Unet
U-Net: Convolutional Networks for Biomedical Image Segmentation
위 논문을 살펴본다.
summary
Image segmentation이란 이미지에서 픽셀 단위로 관심 객체를 추출하는 과정이다. 한 이미지에서 이 픽셀이 세포에 해당하는지, 배경인지 라벨링 하는 문제를 해결하는데 Unet모델이 성과를 거두었다.
Unet이라는 이름은 구조가 U자형으로 생겼기에 붙여진 이름이다. Fully convolutional network를 기반으로 제작하였으며, max pooling을 거친 후 upsampling 시에 각 층에 대응되는 네트워크의 output을 연결하여 사용하도록 한다. 이를 통해 local feature뿐만 아니라 global position 정보까지 학습에 이용할 수 있다.
discussion
local feature의 위치정보뿐만 아니라 전체 이미지에서의 위치정보도 학습에 사용되는 특징이 있다. 위치정보를 유지한다는 이점으로 LDM 에서도 diffusion model의 뼈대로 사용한다. 다만 최신 연구에 따르면 diffusion model의 성능 향상에 Unet이 필수적이지 않다고 하며, Unet보다 더 파라미터 수가 많고 위치정보도 학습 가능한 transformer 기반의 모델을 사용한다고 한다. 바로 SORA가 사용하는 Diffusion Transformer이다.
댓글남기기