<LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)


<LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)

[Naver, KAIST, SNU] - human annotation이나 proprietary LLM에 의존하지 않고 합성 데이터를 이용하는 alignment learning framework - vanilla LLM으로부터의 output을 대조시키는 방식으로 reward modeling을 진행 - RM을 이용하여 high-quality demonstration에 대해 supervised policy를 학습 - model을 강화학습을 통해 optimize 배경 Alignment learning은 large language model의 성능 향상에 큰 영향을 주었지만 관련 데이터 확보나 학습 관점에서 비용이 너무 많이 든다는 문제점이 존재 본 논문에서는 합성 데이터를 생성함으로써 위 방식의 단점을 극복하고..


원문링크 : <LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)