3.1 Forward process and $L_T$

q는 학습하지 않으므로, $L_T$는 훈련 과정에서 무시할 수 있다.

$\beta_t$는 fixed

3.2 Reverse process and $L_{1: T-1}$

$$ \qquad p_\theta(x_{t-1}|x_t) \coloneqq N(x_{t-1}; \space \mu_\theta(x_t,t), \space \Sigma_\theta(x_t,t)) $$

mean, var을 예측해야 함

q(x_{1:T} |x_0) \coloneqq \prod^T_{t=1} q(x_t|x_{t−1}), \qquad q(x_t|x_{t−1}) \coloneqq N(x_t;\space \sqrt{1-\beta_t}\cdot x_{t-1}, \space \beta_t \cdot I) $$

variance를 보면 $\beta_t$가 그냥 곱해지는 형태

→ $\beta_t$가 크면 노이즈가 크고 작으면 노이즈가 작음

→ 따라서 불확실성도 $\beta_t$를 통해 구할 수 있음

크면 노이즈가 강하므로 예측의 불확실성이 커지고
작으면 노이즈가 작게 들어가므로 예측의 불확실성이 작아짐

→ variance를 학습할 필요가 없어짐

$$ \Sigma_\theta(x_t,t)) = \sigma_t^2I $$

$$ \sigma_t^2 = \tilde\beta_t = {{1-\bar\alpha_{t-1}}\over{1-\bar\alpha_t}}\beta_t $$