<LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Google DeepMind] - RNN과 gated linear recurrence를 결합한 Hawk, gated linear recurrence와 local attention을 결합한 Griffin을 제안 - Hawk는 특정 태스크에서 Mamba 수준의 성능을, Griffin은 Llama-2 수준의 성능을 보임. 특히 후자의 경우 학습 당시에 접한 텍스트 보다 긴 데이터에 대해서도 뛰어난 성능을 보임. - 두 모델은 Transformers 대비 hardward efficient하며 lower latency & higher throughpu..

원문링크 : <LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)

<LLM> Griffin: Mixing Gated Linear Recurrences with Local Attention for Efficient Language Models (2024.02)

등록된 다른 글

[Short Paper Review] We're Afraid Language Models Aren't Modeling Ambiguity

4.5. 고윳값, 고유벡터

<Attention> [TransNormer] Scaling TransNormer to 175 Billion Parameters

<KD, Fusion> Knowledge Fusion of Large Language Models (2024.01)

프로그래머스 인공지능 데브코스 4기 코딩 테스트 응시 후기(비전공자)

<LLM> SOLAR 10.7B: Scaling Large Language Models with Simple yet Effective Depth Up-Scaling (2023.12)

Introduction to Programming Frameworks

AI Expo Korea 2024 국제인공지능대전 후기

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티