[인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)


[인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)

1. 강화학습이란? - 강화학습 문제는 기본적으로 '환경', '에이전트', '상태', '행동', '보상'이라는 요소로 이뤄진다. 강화학습의 목표는 환경 안에 있는 에이전트가 환경과 상호작용을 하면서 최적의 의사결정을 하는 것이다. 에이전트와 환경 간의 상호작용은 상태, 행동, 보상을 주고받음으로써 이뤄진다. 에이전트는 환경에게 행동을 제공하고, 환경은 에이전트에게 상태와 보상을 제공하는 방식이다. 에이전트의 행동을 받아들인 환경은 에이전트에게 새로운 상태와 보상을 제공한다. 상태는 에이전트가 처한 상황을 나타낸다. 에이전트가 행동을 취해 현재 상태에서 다음 상태로 바뀌는 것을 '상태 전이'라고 한다. - 보상은 에이전트의 행동을 평가할 수 있는 지표이다. 상태, 행동, 보상은 강화학습 문제를 정의하는 주..


원문링크 : [인공지능] 강화학습 개념 정리 (with 마르코프 결정 과정, 탐색-이용 트레이드오프)