long-term dependency


long-term dependency

RNN에서 "I love you"를 번역할 때, 'you'를 담고있는 hidden state에는 비교적 'I'의 정보가 적을 수밖에 없습니다. 만약 이보다 긴 문장이 주어진다면 앞의 단어를 반영하기 더 어려워지겠죠. 이것을 long-term dependency라고 부릅니다. 그렇다면 이런 문제를 어떻게 해결할 수 있을까요? 이번 글에서는 두 가지 해결책을 제시합니다. bi-directional RNNs Transformer bi-directional RNNs 그렇다면 이런 아이디어를 떠올릴 수 있습니다. 타임스텝이 가면 갈수록 앞의 단어의 정보를 유실할 가능성이 크니깐 반대의 경로, 즉 backward path를 추가해 이 둘을 concate함으로써 단일 RNN보다 더 멀리있는 정보도 잘 반영하게 할 수 있습니다. Transformer - self attention RNN처럼 각각의 타임스텝에서 입력에 대한 인코딩 hidden 벡터를 만드는 것은 동일합니다. 하지만 RNN처럼 이 과...


#attention #bidirectional #dependency #embedding #long #RNN #selfattention #term #transformer

원문링크 : long-term dependency