[강화학습-RL]#5 TD(Temporal Difference) Learning

#강화학습 #Reinforcement #Learning #화공공대생 #on #off #policy #incremental 안녕하세요. 화공공대생입니다. Temporal Difference 이전에는 MC(Monte Carlo) Simulation을 다뤘었습니다. 이는 Episodic Method로 Episode가 끝나야지만, 결과 값이 확인이 가능했습니다. 이는 Value Function을 어떻게 Update 하느냐에 따라서 방법이 달라지게 됩니다. Dynamic Programing방법을 다시 생각해보겠습니다. 여기에는 One array 방법과 Two array 방법이 있었습니다. One array는 실시간으로 update 하면서 Value funciton을 평가했습니다. 반대로 Two array는 모든 평가가 끝나고 다시 Value function을 평가하였습니다. MC와 TD는 이차이와 동..........

원문링크 : [강화학습-RL]#5 TD(Temporal Difference) Learning

등록된 다른 글

[강화학습-RL]#5 TD(Temporal Difference) Learning

등록된 다른 글

[화공기사] 2022년 필답형 준비 2 -반응공학

[정처기 필기] 타전공생 요약노트 3 -모델링, 상세 설계

[C++] <C++ 표준의 역사> 왜 알아야 할까? - 초보 개발자 일기 26

현대 물리 (Maxwell 파동 방정식)

집합론 용어 및 정의

[C++] const 극복하기, this' 포인터를 'const '에서 ' &'(으)로 변환할 수 없습니다.

엔트로피

선형회귀

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티