[강화학습-RL] #2 MDP 예시

#강화학습 #RL #Markov #Decision #process #예시 #MDP #화공공대생 안녕하세요. 화공공대생입니다. 지난 시간에 다뤘던 내용에 대하여 예시를 통해 조금더 감을 익히도록 해보겠습니다. 잠시 내용을 복습하자면, 강화 학습이라는 것은 환경에 따라 Action을 취하고 그에 따른 보상을 받는 system이 됩니다. 최종 목적은 이 보상을 최대화하는 것이 됩니다. 여기서 Markov decision process 는 환경이 시간이 지나도 변화하지 않는 것을 말하게 됩니다. 이에 조금더 쉬운 작업을 통해 강화학습에 대한 특성을 알아볼 수 있습니다. Bellman equation 을 이용해서 2가지 state function을 측정을 해주도록 하겠습니다. 뭔가 식이 되게 복잡해보입니..........

원문링크 : [강화학습-RL] #2 MDP 예시

등록된 다른 글

[강화학습-RL] #2 MDP 예시

등록된 다른 글

역 격자 (Reciprocal lattice), Bragg's Law

[상평형] #1 상평형도의 이해 (1성분)-(Chemical Potential, Gibbs Phase Rule, Claperyon equation), T-P diagram

[강화학습-RL(TP)] #1 Active Learning 개론

[취업 준비-4] DPM method

[수치해석] PDE with python (3) : 유한 체적법(Finite Volume Method, FVM) 예제

[블챌] 화학 공정의 근사화! - 최소자승법 유도, 재귀 최소자승, PCA 분석 (2) with Python

[편미분 방정식] #6 특성곡선-라플라스 변환 확인

구면 좌표계 변환

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티