Transforemrs(4) : Transformer Network

Transformer Details self-attention을 여러 번 중첩한 multi-head attention은 encoder / decoder 둘 다에서 쓰입니다. encoder부터 살펴보면, 주어진 입력 문장에 대해 multi-head attention을 수행하고 이를 feed forward합니다. 이 과정을 n번 반복합니다. (논문에서는 n=6으로 세팅했습니다) 즉, attention head를 8번 중첩해서 concat하고 forward하는 것을 6번 반복합니다. 이를 통해 입력 문장에 대해 각 단어(token) 간의 관계를 바탕으로 이해를 마칩니다. decoder는 문장의 시작을 알리는 토큰으로 시작합니다. 이를 시작으로 multi-head attention을 적용하여 구한 것을 다음 m..

원문링크 : Transforemrs(4) : Transformer Network

등록된 다른 글

Transforemrs(4) : Transformer Network

등록된 다른 글

AI and Society(2)

Optimization Algorithms(1) - Mini-batch

<LLM> [Qwen] Qwen Technical Report

[프로그래머스] 연속된 부분 수열의 합 (Python)

Face Recognition(4) : Triplet Loss

[BOJ] 1932 : 정수 삼각형 [다이나믹 프로그래밍](Python)

Building AI in Your Company(2)

[BOJ] 1195 : 킥다운 [브루트포스](Python)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티