multi-head attention


multi-head attention

앞선 글들을 통해서 우리는 "I'm going to rest because I'm so tired"라는 문장처럼 'I'가 여러 번 나오더라도 각각 다른 단어들과의 유사도 관계를 구함으로써 다른 의미로 구분할 수 있게 해주는 어텐션 기법에 대해서 알아보았습니다. 트랜스포머는 이러한 어텐션을 병렬로 h번 쌓는 형태의 multi-head attention 구조를 이용합니다. 왜 이런 구조를 사용할까요? multi-head attention 하나의 어텐션으로만 학습한다면 단어 사이의 관계를 하나의 방식으로밖에 설명하지 못할 것입니다. 이를 해결하기 위해 서로 다른 측면의 정보를 가져오는 여러 개의 어텐션 구조를 병렬로 쌓은 구조를 사용하는 것이죠. 멀티헤드 어텐션의 구조를 나타낸 그림을 확인해봅시다. 각각의 self-attention을 수행하고 이를 concat한 후 선형변환을 해줌으로써 계산합니다. 이를 간단하게 수식으로 표현하면 다음과 같습니다. 위와 같이 Attention 연산을 여러...


#attention #multihead #멀티헤드어텐션 #복잡도

원문링크 : multi-head attention