β μν μ μ± μ§λ νμ΅λ§μΌλ‘λ μ΅μ μ΄ μλ μμ¬κ²°μ (suboptimal decision-making)μ΄ λ°μν μ μλ€.
μ΄λ λ 곡κ°μ΄ μλ‘ λ€λ₯Έ 보μ ꡬ쑰(reward manifold)λ₯Ό νμ±νκΈ° λλ¬Έμ΄λ€.
μ΄ λ¬Έμ λ₯Ό ν΄κ²°νκΈ° μν΄ μ°λ¦¬λ **κ°ννμ΅ μμ€(RL loss)κ³Ό μν μ μ± μ§λ(state-policy supervision)**λ₯Ό κ²°ν©ν 곡λ μ΅μ ν λ°©μ(joint optimization)μ λμ νλ€.

π μ΄λ Ξ»λ νλ ¨ μ΄λ°μλ ν¬κ² μμνμ¬,
β νλ ¨ μ€λ°μ―€μ 0μΌλ‘ μ μ§μ κ°μ(annealing)
β μ΄κΈ°μ κ΅μ¬ μ μ± μ λμμ λ°λ€κ°, μ΄νμλ μ€μ€λ‘ λ₯κ°νλλ‘ μ λ
*μ¬μ μμ±λ κΆ€μ (pre-computed trajectories)**μ΄λ μ€νλΌμΈ λ°μ΄ν°μ μμ΄
β on-policy νμ΅ λ°©μμΌλ‘ μ§μ μ΅μ ν μν
κ°ννμ΅ μκ³ λ¦¬μ¦: PPO (Proximal Policy Optimization) μ¬μ©
νμ΅ κ΅¬μ‘°: actor-critic λ°©μ μ¬μ©, λ¨ κ°μ€μΉ 곡μ νμ§ μμ