[인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)

1. 강화학습이란? - 강화학습 문제는 기본적으로 '환경', '에이전트', '상태', '행동', '보상'이라는 요소로 이뤄진다. 강화학습의 목표는 환경 안에 있는 에이전트가 환경과 상호작용을 하면서 최적의 의사결정을 하는 것이다. 에이전트와 환경 간의 상호작용은 상태, 행동, 보상을 주고받음으로써 이뤄진다. 에이전트는 환경에게 행동을 제공하고, 환경은 에이전트에게 상태와 보상을 제공하는 방식이다. 에이전트의 행동을 받아들인 환경은 에이전트에게 새로운 상태와 보상을 제공한다. 상태는 에이전트가 처한 상황을 나타낸다. 에이전트가 행동을 취해 현재 상태에서 다음 상태로 바뀌는 것을 '상태 전이'라고 한다. - 보상은 에이전트의 행동을 평가할 수 있는 지표이다. 상태, 행동, 보상은 강화학습 문제를 정의하는 주..

원문링크 : [인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)

[인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)

등록된 다른 글

[알고리즘] 백준 11399 파이썬 - ATM

빅데이터 직업 종류 5가지 소개

[경제정보] 국내 증권사 API별 특징 (Feat. 파이썬)

[알고리즘] 백준 16922 파이썬 - 로마 숫자 만들기

[알고리즘] 백준(baekjoon) 1145번 파이썬

[알고리즘] 백준 18127 파이썬 - 모형결정

[알고리즘] 백준 11004 파이썬 - K번째 수

[알고리즘] 백준 14568 파이썬 -2017 연세대학교 프로그래밍 경시대회

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티