딥러닝 관련 기본개념 정리 [3]

월드컵에 정신팔려 있다가 이제는 연말 모임과 만남에 크리스마스까지... 아 좀더 쉬고싶다ㅏㅏㅏㅏㅏㅏㅏㅏㅏ 그래도... 공부해야지... (내년에 그나마 덜 힘드려면..ㅎ) Advanced Optimizations loss 값의 최소값을 찾아가는 과정 중 대표적인 것은 저번 글에서 작성한 Gradient Descent이다. 그리고 이외에도 여러가지 발전된 최적화 방법이 많이 나왔는데 몇가지를 살펴보자. 모멘텀 (Momentum Algorithm) : 지수 가중 평균(Exponentially Weighted Average)이라고도 불리며 데이터의 이동 평균을 구할 때, 오래된 데이터가 미치는 영향을 지수적으로 감쇠(exponential decay)하도록 만드는 방법이다. Gradient Descent에서 기울기의 가중 평균치를 산출하여 weight를 업데이트한다. 속도가 빠르고 SGD가 overshooting, diverging되는 것을 방지하며 local minimum 탈출이 가능하다....