Q 러닝 알고리즘


Q 러닝 알고리즘

Tutorial: An Introduction to Reinforcement Learning Using... In this beginner's tutorial, we'll apply reinforcement learning to train an agent to solve OpenAI Gym's 'Taxi' www.gocoder.one Q-러닝 알고리즘은 행동 후 관측값으로 현재 Q-값(Q(St,At))을 업데이트하는 데 도움이 됩니다. 즉, 긍정적인 보상을 만나면 Q를 높이고 부정적인 보상을 만나면 Q를 줄입니다. 학습률(α): 에이전트가 이전에 학습한 정보보다 새로운 정보를 얼마나 쉽게 받아들여야 하는지 할인 계수(γ): 에이전트가 미래에 받을 수 있는 보상과 즉각적인 보상을 고려해야 하는 정도 예시) 택시에서 에이전트는 성공적으로 승객을 내릴 때까지 긍정적인 보상을 받지 않습니다( +20 포인트 ). 따라서 에이전트가 올바른 방향으로 가고 있더라도 긍정적인 보상을 받아야 하는 데...



원문링크 : Q 러닝 알고리즘