<RLAIF, Self> Self-Rewarding Language Models (2024.01)

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Meta, NYU] - LLM-as-a-Judge prompting을 이용하여 스스로 반환한 reward로 학습하는 Self-Rewarding Language Models를 제안 - DPO를 이용하여 반복 학습을 진행하는 동안 instruction following & providing high-quality rewards 능력이 둘 다 향상됨 - Llama 2 70B 모델을 3 iterations로 학습하여 AlapacaEavl 2.0 리더보드에서 우수한 성능을 보임 1. Introduction LLM을 사람의 선호에 맞게 ..

원문링크 : <RLAIF, Self> Self-Rewarding Language Models (2024.01)

등록된 다른 글

<RLAIF, Self> Self-Rewarding Language Models (2024.01)

등록된 다른 글

[BOJ] 11286 : 절댓값 힙 [우선순위 큐](Python)

Multivariable Taylor Series

<Prompting> [OPRO] Large Language Models as Optimizers

Deep Neural Network(2)

Building AI Projects(2)

2022(상) 삼성전자 DX SCSA 전형, 서류 합격후기

[BOJ] 1167 : 트리의 지름 [그래프이론/트리](Python)

Setting up your Machine Learning Application

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티