πŸ” 곡동 μ΅œμ ν™”: κ°•ν™”ν•™μŠ΅ + μƒνƒœ μ •μ±… 지도 (Joint Optimization with Reinforcement Learning)

β†’ μƒνƒœ μ •μ±… 지도 ν•™μŠ΅λ§ŒμœΌλ‘œλŠ” 졜적이 μ•„λ‹Œ μ˜μ‚¬κ²°μ •(suboptimal decision-making)이 λ°œμƒν•  수 μžˆλ‹€.

μ΄λŠ” 두 곡간이 μ„œλ‘œ λ‹€λ₯Έ 보상 ꡬ쑰(reward manifold)λ₯Ό ν˜•μ„±ν•˜κΈ° λ•Œλ¬Έμ΄λ‹€.

이 문제λ₯Ό ν•΄κ²°ν•˜κΈ° μœ„ν•΄ μš°λ¦¬λŠ” **κ°•ν™”ν•™μŠ΅ 손싀(RL loss)κ³Ό μƒνƒœ μ •μ±… 지도(state-policy supervision)**λ₯Ό κ²°ν•©ν•œ 곡동 μ΅œμ ν™” 방식(joint optimization)을 λ„μž…ν•œλ‹€.


🎯 λͺ©μ  ν•¨μˆ˜

image.png

πŸ‘‰ μ΄λ•Œ Ξ»λŠ” ν›ˆλ ¨ μ΄ˆλ°˜μ—λŠ” 크게 μ‹œμž‘ν•˜μ—¬,

β†’ ν›ˆλ ¨ μ€‘λ°˜μ―€μ— 0으둜 점진적 κ°μ†Œ(annealing)

β†’ μ΄ˆκΈ°μ— ꡐ사 μ •μ±…μ˜ 도움을 λ°›λ‹€κ°€, μ΄ν›„μ—λŠ” 슀슀둜 λŠ₯κ°€ν•˜λ„λ‘ μœ λ„


βš™οΈ ν•™μŠ΅ 방식