long-term dependency

RNN에서 "I love you"를 번역할 때, 'you'를 담고있는 hidden state에는 비교적 'I'의 정보가 적을 수밖에 없습니다. 만약 이보다 긴 문장이 주어진다면 앞의 단어를 반영하기 더 어려워지겠죠. 이것을 long-term dependency라고 부릅니다. 그렇다면 이런 문제를 어떻게 해결할 수 있을까요? 이번 글에서는 두 가지 해결책을 제시합니다. bi-directional RNNs Transformer bi-directional RNNs 그렇다면 이런 아이디어를 떠올릴 수 있습니다. 타임스텝이 가면 갈수록 앞의 단어의 정보를 유실할 가능성이 크니깐 반대의 경로, 즉 backward path를 추가해 이 둘을 concate함으로써 단일 RNN보다 더 멀리있는 정보도 잘 반영하게 할 수 있습니다. Transformer - self attention RNN처럼 각각의 타임스텝에서 입력에 대한 인코딩 hidden 벡터를 만드는 것은 동일합니다. 하지만 RNN처럼 이 과...

#attention #bidirectional #dependency #embedding #long #RNN #selfattention #term #transformer

원문링크 : long-term dependency

등록된 다른 글

long-term dependency

등록된 다른 글

word embedding

G. Gershwin - i've got rhythm

자연어 처리 기법

K-mooc x Udemy | C# Unity 게임 개발자 2D (1)

[자연어 처리] Lab-1-2 통계 기반 기법 개선

[웹 개발 입문] 0. 모던 웹을 위한 html5+css3바이블 목차

유클리드 호제법과 확장된 유클리드 호제법

[인빅학회 머신러닝 세미나] 1주차 - 데이터 전처리 (3/23)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티