[강화학습-RL] #2 MDP 예시


[강화학습-RL] #2 MDP 예시

#강화학습 #RL #Markov #Decision #process #예시 #MDP #화공공대생 안녕하세요. 화공공대생입니다. 지난 시간에 다뤘던 내용에 대하여 예시를 통해 조금더 감을 익히도록 해보겠습니다. 잠시 내용을 복습하자면, 강화 학습이라는 것은 환경에 따라 Action을 취하고 그에 따른 보상을 받는 system이 됩니다. 최종 목적은 이 보상을 최대화하는 것이 됩니다. 여기서 Markov decision process 는 환경이 시간이 지나도 변화하지 않는 것을 말하게 됩니다. 이에 조금더 쉬운 작업을 통해 강화학습에 대한 특성을 알아볼 수 있습니다. Bellman equation 을 이용해서 2가지 state function을 측정을 해주도록 하겠습니다. 뭔가 식이 되게 복잡해보입니..........



원문링크 : [강화학습-RL] #2 MDP 예시