[강화학습] 알고리즘 총정리 : 직관적인 개념 설명 - TRPO, PPO, DQN, DDQN, SQN, A2C, DDPG, SAC


[강화학습] 알고리즘 총정리 : 직관적인 개념 설명 - TRPO, PPO, DQN, DDQN, SQN, A2C, DDPG, SAC

REINFORCEMENT LEARNING 강화학습 알고리즘 총정리 TRPO, PPO, DQN, DDQN, SQN, A2C, DDPG, SAC 강화학습에는 정말 여러 알고리즘이 존재하는데, 많은 사람들이 하나하나 알고리즘이 왜 그렇게 생겨났는지에 대한 의미를 알지 못한다. 따라서 이번 글에서는 강화학습을 공부하는 사람들에게 "강화학습 알고리즘의 숲"을 보여주기 위해서 강화학습 알고리즘을 모두 총정리를 해보려고 한다. On-policy 알고리즘: TRPO, PPO On-Policy의 장점은 "현재 겪는 경험"을 그대로 학습한다는 장점을 지닌다. 그 말은 "최신의 정보"를 통해 "최신의 것을 배운다"라는 것인데, 이는 샘플을 쉽고 빠르게 얻을 수 있는 Sample Complexity가 단순한 경우에 유리하다. (반면에 Sample Complexity가 복잡한 경우는 Off-Policy가 더 유리하다.) On-policy : TRPO(Trust Region Policy Optimizatio...


#강화학습 #개요 #숲 #알고리즘 #요약 #총정리 #총정리글

원문링크 : [강화학습] 알고리즘 총정리 : 직관적인 개념 설명 - TRPO, PPO, DQN, DDQN, SQN, A2C, DDPG, SAC