TD 학습은 몬테카를로 방법과 DP 방법을 결합한 것이다. 몬테카를로 방법처럼 환경의 동역학에 대한 모델 없이도 가공하지 않은 경험으로부터 직접 학습할 수 있다. 그리고 DP 방법과 같이 부트스트랩을 사용해 최종 결과를 얻을 때까지 기다리지 않고, 부분적으로는 다른 학습된 추정값을 기반으로 추정값을 갱신한다.

TD Prediction

Monte Carlo Method

상태를 마주친 이후에 발생하는 Return을 알 수 있을 때까지 기다렸다가 이득이 알려지면 그 이득을 $V(S_t)$의 목표로 사용한다.

TD Method

다음 time step까지만 기다리면 되고 보상 $R_{t+1}$과 추정값 $V_(S_{t+1})$을 이용하여 현재 상태의 가치를 갱신한다. 위의 수식과 같은 TD 방법을 TD(0) 또는 one-step TD라고 한다.

<aside> 💡 pseudo code( Tabular TD(0) for estimating $v_\pi$ )

Untitled

</aside>

추정값을 통한 갱신에 있어 세가지 방법의 차이점

Untitled

두번째 줄과 세번재 줄이 같다는 증명(Adam’s law에 의해)

세가지 방법의 target

Monte Carlo Method : 첫번째 줄 DP Method : 세번째 줄 TD Method : 세번째 줄

Monte Carlo Method 실제 expected return이 아닌 sample return을 통해서 갱신이 되기 때문에 몬테카를로 방법의 목표는 추정값이 된다.

DP Method 기댓값은 환경의 모델로부터 완전하게 제공된다고 가정하므로 추정값이 아니고, $V_\pi(S_{t+1})$이 알려져 있지 않기 때문에 추정값을 사용한다. 따라서 DP 방법의 목표 또한 추정값이다.

TD Method 목표가 추정값인 이유는 두 가지 원인이 있다. 실제 $v_\pi$ 대신에 현재 추정값 V를 사용하고 보상도 sample을 통해 얻기 때문에 추정값이 된다.

TD error

Untitled

TD error는 원래 $S_t$의 추정값과 더 좋은 추정값 $R_{t+1} + \gamma V(S_{t+1})$사이의 차이를 측정하는 값이다. TD error는 매 시각마다 만들어지는데 다음 상태와 보상에 의존하기 때문에 한 time step을 지나야 알 수 있다.

Untitled

몬테카를로 오차는 위와 같이 TD error의 합으로 나타낼 수 있다. TD(0)처럼 에피소드 동안 V가 갱신된다면 이 등식은 정확하지 않지만 step size가 작으면 근사적으로 유효할 수 있다. 이를 일반화하는 것은 TD 학습의 이론 및 알고리즘에 있어 중요한 역할을 한다.