강화학습에서 최대의 보상얻기_ state, action, reward, return, discount factor, policy


강화학습에서 최대의 보상얻기_ state, action, reward, return, discount factor, policy

coursera에서 deep learning.ai Andrew Ng 교수님의 [Unsupervised Learning, Recommenders, Reinforcement Learning] 강의를 듣고 정리한 내용입니다 여기서 다루는 내용의 키워드 - State - Action - Reward - Discount factor - Return - Policy Mars Rover Example 로 알아보는 강화학습의 주요 개념들 화성탐사선이 특정 위치(상태, state)에 있다고 가정해요 탐사선이 갈 수 있는 위치는 6개이고 각 위치를 state라고 합니다 탐사선은 4번 위치(state 4)에 있습니다 1번 위치(state 1)에는 화성의 흥미로운 부분이 있지만 거리가 좀 멀어요 6번 위치(state 6)에는 관심은 있는데 그다지 흥미롭지는 않은 부분이 있어요. 그렇지만 가깝죠 탐사선이 1번 위치(state 1)가 더 가치있다고 판단하도록 하려면 보상(reward)을 많이 주면 됩니다 s...


#action #discountFactor #policy #reinforcementLearning #return #reward #state #강화학습 #보상

원문링크 : 강화학습에서 최대의 보상얻기_ state, action, reward, return, discount factor, policy