LSTM & GRU


LSTM & GRU

Long Short-Term Memory (LSTM) 이전 글에서 다뤘던 기울기 문제를 해결하고 더 긴 시퀀스에서도 필요한 정보를 보다 효과적으로 처리할 수 있도록 한 모델입니다. 기본적으로 RNN에서 사용하던 수식을 살펴보면 입력 벡터와 hidden state 말고도 다른 인자가 추가된 것을 확인할 수 있습니다. 뒤에서 설명하겠지만 c가 hidden state보다 완전한 정보를 저장하고 전달하는 역할을 하고, h는 그것을 가함으로써 현재 타임스텝의 출력이나 혹은 그 다음 레이어의 입력으로 사용하는 특징이 있습니다. 또한 '게이트'라는 개념을 사용하여 RNN보다 복잡한 구조이지만 정보를 보다 잘 기억할 수 있도록 하였습니다. 총 4개의 게이트로 I(inputgate), F(forget gate), O(output gate), G(gate gate)가 있습니다. 각각의 게이트 연산은 밑의 그림 하나로 정리할 수 있습니다. 우선 입력으로 들어온 x와 h를 선형변환하여 W라는 벡터를 만들...


#forget #sigmoid #RNN #pytorch #output #LSTM #input #GRU #gradient #gate #tanh

원문링크 : LSTM & GRU