<Attention> LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models


<Attention> LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models

최근(2023.09)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [MIT] 사전학습된 LLM의 context size를 확장하는 efficient fine-tuning 기법, LongLoRA. sparse local attention 방식 중 하나로 shift shoft attention(S^2-Attn)를 제안하고, trainable embedding & normalization을 통해 computational cost를 대폭 줄이면서도 기존 모델에 준하는 성능을 보임. Fine-tugning을 위한 3K 이상의 long context question-answer pair dataset, Lon..


원문링크 : <Attention> LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models