policy gradient : 인공신경망으로 정책을 근사하고 목표함수의 기울기를 따라 정책신경망을 업데이트 하는...... 원문링크 : 강화학습 심화 - 폴리시 그레이디언트 등록된 다른 글 강화학습 기초 - 정책 이터레이션 NasNet Multi-Objective Reinforced Evolution in Mobile Neural Architecture Search - MoreMNAS 강화학습 기초 - 시간차 예측 강화학습 개요