<Dataset, Instruction> AlpaGasus: Training A Better Alpaca with Fewer Data (2023.07)


<Dataset, Instruction> AlpaGasus: Training A Better Alpaca with Fewer Data (2023.07)

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Samsung Research] - strong LLM을 사용하여 낮은 품질의 데이터를 자동적으로 거르는 simple & effective data selection strategy. - 52K Alpaca 데이터셋으로부터 정제한 9K 고품질 데이터셋으로 학습한 모델, AlpaGasus - 다른 instruction-tuning data에도 적용 가능하며, 학습 속도는 빠르면서도 더 좋은 학습 결과를 보임 배경 언어 모델 학습에 있어서 데이터 품질의 중요성은 점점 더 높아지고 있는 추세 instruction 데이터셋을 사람이 직접 생성하는 것은..


원문링크 : <Dataset, Instruction> AlpaGasus: Training A Better Alpaca with Fewer Data (2023.07)