<Image> [ViT] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

예전(2020.10)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Google Reserach, Brain Team] image patch의 sequence에 pure transformer를 적용하여 image classification을 수행. 타 모델 대비 적은 computational resource를 요하면서도 우월한 성능을 보임. 배경 transformer가 등장하며 NLP를 집어 삼키게 된 이후로, 이 아키텍쳐를 이미지 분야에 적용하고자 하는 여러 시도들이 있었습니다. 각 픽셀을 대상으로 self-attention을 적용하거나 지엽적으로 self-attention을 적용하는 등의 접근이..

원문링크 : <Image> [ViT] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

<Image> [ViT] An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale

등록된 다른 글

<Retrieval> [DSI] Transformer Memory as a Differentiable Search Index (2022.02)

<Retrieval, Knowledge Injection> Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs (2023.12)

5.1. 개요

4.1. 문제 설정: 안정성

Programming Assignments

<Retrieval, In-Context Learning> RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

<LK Lab, Evaluation> [FLASK] Fine-Grained Language Model Evaluation Based on Alignment Skill Sets (2023.10)

[BOJ] 1992 : 쿼드트리 [분할](Python)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티