강화학습, 다이내믹 프로그래밍의 한계
Dynamic Programming의 한계 Dynamic Programming은 계산을 빠르게 하는 것이지 “학습“을 하는것이 아니므로 머신러닝이 아님.
Dynamic Programming의 한계 Dynamic Programming은 계산을 빠르게 하는 것이지 “학습“을 하는것이 아니므로 머신러닝이 아님.
가치 이터레이션 (Value Iteration)
정책이란?
한번의 계산으로 최적화된 값을 찾는 것은 상당히 힘듭니다. 머신러닝에서 최적화 (Optimization)를 할 때는 일반적으로 여러 번 학습 과정을 거치는데 한 번의 학습 과정 역시 사용하는 데이터를 나누는 방식으로 세분화 시킵니다.
벨만 방정식 벨만 기대방정식 $v_\pi(s) = E_\pi[R_{t + 1} + \gamma v_\pi(S_{t+1})|S_t=s]$