<LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)

[Naver, KAIST, SNU] - human annotation이나 proprietary LLM에 의존하지 않고 합성 데이터를 이용하는 alignment learning framework - vanilla LLM으로부터의 output을 대조시키는 방식으로 reward modeling을 진행 - RM을 이용하여 high-quality demonstration에 대해 supervised policy를 학습 - model을 강화학습을 통해 optimize 배경 Alignment learning은 large language model의 성능 향상에 큰 영향을 주었지만 관련 데이터 확보나 학습 관점에서 비용이 너무 많이 든다는 문제점이 존재 본 논문에서는 합성 데이터를 생성함으로써 위 방식의 단점을 극복하고..

원문링크 : <LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)

<LK Lab, Alignment> [ALMoST] Aligning Large Language Models through Synthetic Feedback (2023.10)

등록된 다른 글

<Multi-modal> BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

<Multi-modal> ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision

[네이버 부스트캠프 AI Tech 4기] 수료 기념 후기 (+ for 부캠 지원자)

[BOJ] 1717 : 집합의 표현 [유니온파인드](Python)

2023년 회고록: 성장하지 못한 낙동강 오리알 cc

[BOJ] 1932 : 정수 삼각형 [다이나믹 프로그래밍](Python)

[Short Paper Review] ResiDual: Transformer with Dual Residual Connections

Semantic Segmentation with U-Net

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티