CoAtNet 코트넷 논문 읽기


CoAtNet 코트넷 논문 읽기

논문 링크: https://arxiv.org/abs/2106.04803 코드(Paperwithcodes) 링크 : https://paperswithcode.com/paper/coatnet-marrying-convolution-and-attention 필자의 입맛에 맞게 번역, 요약한 글입니다. 오역의 여지가 있는 부분은 영문도 표기해 놓았고 Abstract 부분의 주요 내용은 영문 그대로 옮겨 놓기도 했습니다. Abstract Transformer는 computer vision 분야에서 매력적인 요소로 여겨지고 있다. 하지만 SOTA conv 모델에 비해 다소 성능이 떨어지는 경향이 있다. 적절한 inductive bias가 부족하기 때문에 큰 모델 용량(model capacity)을 가지고 있긴 하지만 일반화 성능이 Conv network보다 떨어짐을 이번 논문에서 나타낸다. 두 가지 Two insights를 통해 CNN과 Transformer를 결합시켜 볼 것이다. 1) ...



원문링크 : CoAtNet 코트넷 논문 읽기