Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)

목차 해당 포스트(Reinforcement Learning)는 유투브 혁펜하임의 강의 내용을 듣고 제 생각대로 정리한 내용이라 틀린 내용이 있을 수 도 있습니다. Q-Learning이란? Q Learning 이란 강화 학습 알고리즘(Reinforcement Learning Algorithm)으로 보상을 받기 까지의 모델이 없는 상태에서 확률적인 동작으로 보상까지의 Quality를 찾는 과정입니다. 예를 들어 경로를 알려 주는 지도가 없는 경우에 부산에서 출발하는 사람이 있다고 생각하겠습니다. 서울에 도착하면 100원을 원주에 도착하면 80원을 보상을 준다고 가정하겠습니다. 여기서는 A10을 서울, A20을 원주로 가정하겠습니다. 위 테이블은 도시를 하나씩 이동할 때마다 State가 변하고(시간의 흐름),..

원문링크 : Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)

Q-Learning이란?(Epsilon-Greedy, gamma Discount factor, learning rate)

등록된 다른 글

[Python] Cookie란? flask로 쿠키 연동하기

(파이썬)subprocess, os.system, re.findall, re.search를 사용한 간단 예제 - wifi 비번찾기

미국 개인 소비지출 지수와 나스닥, 다우 비교해서 보는 법(PCE 확인 하기)

[Python]GPS파일(nmea)에서 위도, 경도, 속도, 시간 정보 읽어서 csv에 저장하기(Latitude, Longitude, Speed, Time)

[Python] Percent, Percentile 이란? 파이썬으로 쉽게 구해보기

아마존에서 투자한 Rivian 전기차회사 미국과 캐나다에 10,000 전기충전소 설치 계획

if in 구문, for in 구문

[Python] Pandas로 네이버 금융 재무분석 항목 가져오기(에러해결 추가)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티