Seq2Seq model with attention

이번 글에서는 seq2seq 구조에 어텐션 알고리즘을 적용한 모델에 대해서 알아봅시다. 기존 seq2seq와 달라지는 점은 무엇일까요? seq2seq는 모든 타임 스텝을 거친 hidden state만을 hidden vector로 사용하여 다음 디코더의 입력으로 넣어주는 방식을 사용했는데요. 어텐션에서는 각각의 타임 스텝에서의 hidden state vector까지도 디코더에 제공해줍니다. 이때 그냥 넘겨 주는 것이 아니라 그 중에서도 필요한 인코딩 hidden state 벡터를 선별하여 가져오는 방식을 사용하였습니다. 디코더의 첫 번째 타임스텝에서는 입력으로 seq2seq와 동일하게 t에서의 입력 벡터와 인코더의 마지막 hidden state를 입력으로 가져옵니다. 이후 디코더의 hidden state 벡터가 인코더의 hidden state 벡터들 각각과 스칼라곱을 한 결과를 소프트맥스를 통과시켜 어떤 인코더 hidden state 벡터의 정보를 더 참고할 것인지를 계산합니다. 여기...