- Page 8

21살이고싶은 30살같은 23살 개발자

강화학습, 다이내믹 프로그래밍의 한계

August 30 2020

Dynamic Programming의 한계 Dynamic Programming은 계산을 빠르게 하는 것이지 “학습“을 하는것이 아니므로 머신러닝이 아님.

August 30 2020

가치 이터레이션 (Value Iteration)

August 30 2020

정책이란?

August 28 2020

한번의 계산으로 최적화된 값을 찾는 것은 상당히 힘듭니다. 머신러닝에서 최적화 (Optimization)를 할 때는 일반적으로 여러 번 학습 과정을 거치는데 한 번의 학습 과정 역시 사용하는 데이터를 나누는 방식으로 세분화 시킵니다.

August 26 2020

벨만 방정식 벨만 기대방정식 $v_\pi(s) = E_\pi[R_{t + 1} + \gamma v_\pi(S_{t+1})|S_t=s]$