강화학습의 새로운 지평선이 열리다.(feat. 파블로프의 개)


강화학습의 새로운 지평선이 열리다.(feat. 파블로프의 개)

개요 원인 => 보상으로 연결되는 기존 강화학습의 틀을 깨는 연구가 진행되고 있습니다. 너무나도 유명한 고전적 조건형성 실험 파블로프의 개 파블로프의 개 실험은 개가 강화 학습 과정을 통해 특정 자극(메트로놈 소리나 그림)을 보상(음식)과 연관시키도록 훈련될 수 있음을 보여주었습니다. 강화 학습으로 알려진 이 프로세스는 대부분의 동물이 세상과 상호 작용하는 방식으로 알려져 있습니다. 1970년대 실험 이후 대부분의 사람들이 알고 있는 동물 학습 이론은 시행착오를 통해 학습한다는 것입니다. 신호와 보상의 연관성을 나타내는 일련의 과정은 다음과 같습니다. 동물은 신호가 주어질 경우 보상이 발생할 시기를 예측합니다. 예상 보상이 실제로 발생하는지 확인하기 위해 기다립니다. 예측과 결과의 차이를 계산(오류) 오..


원문링크 : 강화학습의 새로운 지평선이 열리다.(feat. 파블로프의 개)