Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)


Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)

목차 해당 포스트(Reinforcement Learning)는 유투브 혁펜하임의 강의 내용을 듣고 제 생각대로 정리한 내용이라 틀린 내용이 있을 수 도 있습니다. Q-Learning이란? Q Learning 이란 강화 학습 알고리즘(Reinforcement Learning Algorithm)으로 보상을 받기 까지의 모델이 없는 상태에서 확률적인 동작으로 보상까지의 Quality를 찾는 과정입니다. 예를 들어 경로를 알려 주는 지도가 없는 경우에 부산에서 출발하는 사람이 있다고 생각하겠습니다. 서울에 도착하면 100원을 원주에 도착하면 80원을 보상을 준다고 가정하겠습니다. 여기서는 A10을 서울, A20을 원주로 가정하겠습니다. 위 테이블은 도시를 하나씩 이동할 때마다 State가 변하고(시간의 흐름),..


원문링크 : Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)