Diffusion Model 수학이 포함된 tutorial (1/2)

📚 Study/AI

Diffusion Model 수학이 포함된 tutorial (1/2)

윰갱 2024. 7. 17. 14:08

본 글은 아래 영상을 보고 정리하였습니다.

https://www.youtube.com/watch?v=uFoGaIVHfoE

GAN의 성능을 이겨버린 Diffusion

최초의 연기를 찾아보는 것이 핵심!

실제 물리적으로 분자가 확산될 때,

가우시안 분포 안에 다음 위치가 결정된다.

시작 이미지에서 noise를 추가해서 전체를 noise로 만들어버리는 forward와

noise를 줄여나가면서 이미지를 생성하는 reverse가 존재한다.

이때, 위에서 설명한 것처럼 이미지에서 noise를 추가하는 과정, 즉 연기가 퍼져 나가는 과정은 매우 쉽다.

그러나 그 반대의 과정인 reverse는 어렵다.

앞서 분자가 확산될 때 설명한 것처럼, noise가 추가되는 형식은 가우시안 분포를 따르다.

$q(x_{t} | x_{t-1})$ = $N(x_{t}: \sqrt{1-\beta _{t}} x_{t-1}, \beta_{t}I)$

- 이전 step인 $x_{t-1}$ 주어졌을 때 다음 step인 $x_{t}$를 계산하는 식이다.

- 두 step사이는 가우시안 분포로 연결되어 있다.

- 평균은 $\sqrt{1-\beta _{t}} x_{t-1}$이고, 분산은 $\beta_{t}I$이다.

- 여기서 $\beta_{t}$의 값은 0.001 정도로 매우 작다고 한다. 이 값이 작을수록 이전 step과 비슷하고, 클수록 변화가 크다.

$q(x_{1:T} | x_{0}) =\prod_{1}^{t}{q(x_{t}|x_{t-1})}$

- $x_{T}$번째 이미지는, $x_{0}$에서 $q$를 계속 곱하면 만든다는 뜻이다.

$\beta_{t}$를 정의하는 방식은 논문마다 다르고, 은근히 성능차이도 많이 난다.

timestep $t$에 따라서 네트워크가 해야 하는 일이 달라지는데,
각각 얼만큼의 noise가 추가될지 결정해주는 것이 바로 $beta_{t}$이다.
이는 달리 얘기하면, 곧 네트워크에게 어떤 일을 해라하고 간접적으로 말하는 것과 같아서
성능이 차이가 날 수밖에 없는 것이다.

왜 식이 이렇게 구성이 되나요? 라는 질문의 대답으로는 이렇게 답할 수 있다.

다음 분포에 따르면, $x_{t} = \sqrt{1-\beta_{t}}x_{t-1} + \sqrt{\beta_{t}}e$이고, $e$ ~ $N(0,I)$이다.

$x_{t}$의 분산을 구하면,

$Var(x_{t}) = Var( \sqrt{1-\beta_{t}}x_{t-1} + \sqrt{\beta_{t}}e )$

$= (1-\beta_{t})Var(x_{t-1}) + \beta_{t}I$

만약 $Var(x_{t-1})$의 값이 1이라고 한다면, $Var(x_{t})$ 또한 1이 되기 때문에 위와 같이 정의하는 것이다.

특정 timestep으로 한번에 더할 수 있지 않을까?가 ddpm의 주된 시도

타임스텝으로 넘어가는 식은 $x_{t} = \sqrt{\alpha_{t}}x_{0} + \sqrt{1-\alpha_{t}}e$ 이렇게 논문에서 정의해두었다.

여기서 $\sqrt{\alpha_{t}}$는 초기상태 $x_{0}$의 정보를 얼마나 유지할지를 결정하고,

$\sqrt{(1-\alpha_{t})}$는 노이즈의 크기를 결정한다.

따라서 $\alpha_{t}$가 크면 $x_{t}$는 주로 $x_{0}$의 영향을 받고, 작으면 주로 noise의 영향을 받음

$\alpha$ 식에 관한 설명이다.

결과적으로 noise를 추가해가면서 $q(x_{T})$인 gaussian distribution을 찾아내는 과정인 것이다.

denoising하는 과정 또한 gaussian이라고 가정하고 '평균'과 '분산'을 찾는 것이 목표인 것이다.

위의 식에서는 $\mu_{\theta}(x_{t},t)$와 $\sigma_{t}^2I$인 것이다.

용어를 헷갈리지 말자!!
$q$함수의 경우에는 '참 분포', 어쩌면 정답이 되는 분포를 의미하고
$p$함수의 경우에는 '모델이 예측한 분포', 학습할 분포를 의미한다.

따라서, 모델의 training을 통해
이 분포의 '평균'과 '분산'을 찾아낸다.

여기서 $\theta$를 포함하도록 하여, neural network로 학습되는 확률 모델임을 명시했다.

기존 논문에서 정의한 Loss 사용

$L_{T}$에서

$q(x_{T}|x_{0})과 p(x_{T})$는 모두 gaussian distribution이기 때문에 KL-div를 구하는게 의미가 없어서 사용 안됨

$q(x_{t-1} | x_{t}, x_{0})$ 또한 gaussian distribution이고, $p_{\theta}(x_{t-1}|x_{t})$ 또한 그렇게 가정하므로

가우시안 사이의 KL-div로 정의할 수 있다.

식을 전개하다보니, 맨 아래 식과 같이 noise prediction만 알면 loss를 계산할 수 있음을 알아냄

ddpm 논문에서는 coefficient $\mu_{t} = 1$으로 가정하지만, 논문에 따라 다르게 설정하자라고 주장하는 것도 많다.

(hyperparameter 같은 존재일까..?)

가우시안 모델의 평균을 예측하기 위해 식을 쓰다보니,

각 step 사이의 noise를 예측하는 모델을 만들면 된다는 결론이 나왔다.

U-Net의 기본 아이디어는 저차원 뿐만 아니라 고차원 정보도 이용하여 이미지의 특징을 추출함과 동시에 정확한 위치 파악도 가능하게 하자는 것이다. 이를 위해서 인코딩 단계의 각 레이어에서 얻은 특징을 디코딩 단계의 각 레이어에 합치는(concatenation) 방법을 사용한다. 인코더 레이어와 디코더 레이어의 직접 연결을 스킵 연결(skip connection)이라고 한다.

https://velog.io/@lighthouse97/UNet%EC%9D%98-%EC%9D%B4%ED%95%B4

$x_{0}$에서 시작하지만 noise를 한번에 입혀서 $x_{t}$를 만들고,

이를 timestep $t$와 함께 U-net에 넣어서 어떤 noise가 더해진건지 prediction하는 구조이다.

Q. 왜 $t$를 같이 넣어주나요?
A. $x_{t}$가 얼만큼의 noise가 추가된 상태인지 알아야 하기 때문에

+ $t$를 그냥 숫자로 넣어주면 안되므로, embedding을 해준다 (sin, cos) -- like positional encoding
+ 일반적으로 $t$는 1,000이상인데 만약 $t$를 따로 넣어주지 않으면 1,000개의 함수를 만들어야 한다는 소리다.
이를 방지하기 위해 넣어주는 것이다

ddpm에서는 $\beta_{i}$와 $\sigma_{i}^2$를 동일하게 만들었다.

하지만 $\beta_{i}$나, $\sigma_{i}^2$를 다른 방법으로 정의하자는 논문 또한 많다.

초반에는 noise에서 시작해서 low-frequency content를 만들어나가는 과정이다.

이는 어떤 content가 생성할지에 대한 내용이다. (아예 흐릿 -> 약간의 실루엣)

일정 수준이 넘어가면,

detail한 정보들만 추가되는 high-frequency content를 만들어나가는 과정이 이어진다.

timestep $t$에 따라서 담당하는 내용이 다르다는 사실!

(조금 더 자세히)

지금까지 우리는 diffusion 모델의 목적을 살펴봤다.

가우시안이라고 가정한 reverse process의 분포를 찾기 위해, '평균'을 구하는게 우리의 목적이다.

('분산'은 forward랑 같다고 가정함)

이때, 구하는 방법은 noise prediction을 시켜서 sampling을 한다는 것

조금 더 자세히 살펴봅시다 :)

# forward

왜 $q(x_{1:T} | x_{0}) = \prod_{t=1}^{T} q(x_{t}|x_{t-1})$의 식이 성립하는지에 관한 증명이다.

(markov chain)

$P(x_{t+1} | x_{0}, ..., x_{t}) = P(x_{t+1} | x_{t})$

$0$번째부터 $t$번째까지의 모든 data가 있을 때 (과거),
$(t+1)$번째 데이터(미래)는 $t$번째 데이터에만 영향을 받는다는 뜻!

즉, 마코프 체인의 확률 과정은 미래가 과거와는 독립이고 오로지 직전 시점에만 영향을 받는다는 것
https://blog.naver.com/jinis_stat/221686989847