attention mechanism


attention mechanism

이번 글에서는 attention score를 구하는 다양한 방법들에 대해서 알아보겠습니다. 총 3가지의 메커니즘을 다룰 것입니다. 하나는 이전 글에서도 사용했던 dot product이며 가장 기본적인 방법일 것입니다. 두 번째는 그 dot product를 조금 더 일반화한 방법입니다. 마지막은 두 hidden 벡터를 concatenation하여 구하는 방법입니다. 자세한 내용은 아래에서 다루겠습니다. dot product 이전 글에서 확인했듯이 어텐션 스코어를 구하는 가장 기본적인 방법입니다. 잠깐 다시 복습하자면 디코더의 h 벡터를 인코더의 h 벡터들과 스칼라곱을 하여 어텐션 스코어를 구하는 방식이었죠. general 다음은 general한 dot product를 사용하는 방법입니다. dot product의 일반적인 표현은 다음과 같습니다. 두 벡터를 스칼라곱하는 과정 사이에 항등행렬 I를 사이에 곱하는 것입니다. 직접 계산해봐도 결과는 같습니다. 만약 가운데에 있는 행렬의 원소 ...


#attention #어텐션 #스칼라곱 #메커니즘 #기울기문제 #기계번역 #general #dotproduct #concate #해석가능성

원문링크 : attention mechanism