[강화학습-RL]#4 On & Off Policy & Incremental Mean


[강화학습-RL]#4 On & Off Policy & Incremental Mean

#강화학습 #Reinforcement #Learning #화공공대생 #on #off #policy #incremental 안녕하세요. 화공공대생입니다. Policy를 정하는데 있어서 On policy와 Off policy 방법으로 나뉠 수 있습니다. 이는 Value function을 얻는데 쓰이는 Policy와 Policy를 최적화 하는데 쓰이는 Policy가 차이가 있기 때문입니다. E-greedy Greedy Epsilon policy + Random Action 먼저 Epsilon Greedy라는 Policy를 말씀드리겠습니다. Epsilon Greedy는 가장 흔한 Policy인데, 대부분 Greedy 이지만 Stohcastic Process가 조금 섞인 상태라고 볼 수 있습니다. (여기서 Greedy는 가장 좋은 것만 선택하는 과정입니다.) 그러면, 모든 State에 방문이 가능하게 됩니..........



원문링크 : [강화학습-RL]#4 On & Off Policy & Incremental Mean