[강화학습-RL]#4 On & Off Policy & Incremental Mean

#강화학습 #Reinforcement #Learning #화공공대생 #on #off #policy #incremental 안녕하세요. 화공공대생입니다. Policy를 정하는데 있어서 On policy와 Off policy 방법으로 나뉠 수 있습니다. 이는 Value function을 얻는데 쓰이는 Policy와 Policy를 최적화 하는데 쓰이는 Policy가 차이가 있기 때문입니다. E-greedy Greedy Epsilon policy + Random Action 먼저 Epsilon Greedy라는 Policy를 말씀드리겠습니다. Epsilon Greedy는 가장 흔한 Policy인데, 대부분 Greedy 이지만 Stohcastic Process가 조금 섞인 상태라고 볼 수 있습니다. (여기서 Greedy는 가장 좋은 것만 선택하는 과정입니다.) 그러면, 모든 State에 방문이 가능하게 됩니..........

원문링크 : [강화학습-RL]#4 On & Off Policy & Incremental Mean

등록된 다른 글

[최적화] #2 벡터의 미분+ Taylor's formula (not series)

[강화학습-RL]#4 On & Off Policy & Incremental Mean

등록된 다른 글

[최적화] #2 벡터의 미분+ Taylor's formula (not series)

[석유화학공정]#1

[CFD] 오일러 방정식과 베르누이 방정식

[블챌] 주간일기, 우영우, 독서토론, 디지털트윈 공정제어, 정처기

[C++] C++11 핵심 문법과 예제-1 ; 초보 개발자 일기 27

[파이썬] #0 초보자와 함께 시작하기. (Colab 시작)

[블챌] 제어기 파라미터 조정(2)- 최소 오차법

Van't Hoff equation(반트호프 방정식), 아레니우스식

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티