[CS231N] Lecture7 : Training Neural Networks II


[CS231N] Lecture7 : Training Neural Networks II

https://www.youtube.com/watch?v=_JB0AO7QxSA&list=PLzUTmXVwsnXod6WNdg57Yc3zFx_f-RYsq&index=7 Optimization SGD의 문제점을 한번 언급해야 모멘텀을 이용해 해결하는 과정이므로 SGD 벡터의 이동 문제로 지그재그로 움직여 오래걸리기도하고 local minima or saddle point 문제 한번 설명하자 그림과 설명 추가 예정 ·Parameter update ·Momentum update 그래디언트디센트에서는x자체를 업데이트했지만 모멘텀에서는 v를 추가하여(속도 velcoity) 업데이트 하고 x의 위치를 속도에 따라서 업데이트 한다. (언덕에서 공을 굴리는 식으로?) ·NEsterov Momentum update(Nesterov Accelerated Gradient) 모멘텀보다 항상..........



원문링크 : [CS231N] Lecture7 : Training Neural Networks II