[강화학습-RL]#5 TD(Temporal Difference) Learning


[강화학습-RL]#5 TD(Temporal Difference) Learning

#강화학습 #Reinforcement #Learning #화공공대생 #on #off #policy #incremental 안녕하세요. 화공공대생입니다. Temporal Difference 이전에는 MC(Monte Carlo) Simulation을 다뤘었습니다. 이는 Episodic Method로 Episode가 끝나야지만, 결과 값이 확인이 가능했습니다. 이는 Value Function을 어떻게 Update 하느냐에 따라서 방법이 달라지게 됩니다. Dynamic Programing방법을 다시 생각해보겠습니다. 여기에는 One array 방법과 Two array 방법이 있었습니다. One array는 실시간으로 update 하면서 Value funciton을 평가했습니다. 반대로 Two array는 모든 평가가 끝나고 다시 Value function을 평가하였습니다. MC와 TD는 이차이와 동..........



원문링크 : [강화학습-RL]#5 TD(Temporal Difference) Learning