<LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)


<LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Google DeepMind] - RNN과 gated linear recurrence를 결합한 Hawk, gated linear recurrence와 local attention을 결합한 Griffin을 제안 - Hawk는 특정 태스크에서 Mamba 수준의 성능을, Griffin은 Llama-2 수준의 성능을 보임. 특히 후자의 경우 학습 당시에 접한 텍스트 보다 긴 데이터에 대해서도 뛰어난 성능을 보임. - 두 모델은 Transformers 대비 hardward efficient하며 lower latency & higher throughpu..


원문링크 : <LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)