q는 학습하지 않으므로, $L_T$는 훈련 과정에서 무시할 수 있다.
$\beta_t$는 fixed
$$ \qquad p_\theta(x_{t-1}|x_t) \coloneqq N(x_{t-1}; \space \mu_\theta(x_t,t), \space \Sigma_\theta(x_t,t)) $$
$$
q(x_{1:T} |x_0) \coloneqq \prod^T_{t=1} q(x_t|x_{t−1}), \qquad q(x_t|x_{t−1}) \coloneqq N(x_t;\space \sqrt{1-\beta_t}\cdot x_{t-1}, \space \beta_t \cdot I) $$
variance를 보면 $\beta_t$가 그냥 곱해지는 형태
→ $\beta_t$가 크면 노이즈가 크고 작으면 노이즈가 작음
→ 따라서 불확실성도 $\beta_t$를 통해 구할 수 있음
→ variance를 학습할 필요가 없어짐
$$ \Sigma_\theta(x_t,t)) = \sigma_t^2I $$
$$ \sigma_t^2 = \tilde\beta_t = {{1-\bar\alpha_{t-1}}\over{1-\bar\alpha_t}}\beta_t $$