<RLAIF, Self> Self-Rewarding Language Models (2024.01)


<RLAIF, Self> Self-Rewarding Language Models (2024.01)

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Meta, NYU] - LLM-as-a-Judge prompting을 이용하여 스스로 반환한 reward로 학습하는 Self-Rewarding Language Models를 제안 - DPO를 이용하여 반복 학습을 진행하는 동안 instruction following & providing high-quality rewards 능력이 둘 다 향상됨 - Llama 2 70B 모델을 3 iterations로 학습하여 AlapacaEavl 2.0 리더보드에서 우수한 성능을 보임 1. Introduction LLM을 사람의 선호에 맞게 ..


원문링크 : <RLAIF, Self> Self-Rewarding Language Models (2024.01)