<RLHF> Reinforced Self-Training (ReST) for Language Modeling (2023.08)

관심있는 NLP 논문을 읽어보고 ChatGPT를 이용하여 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [Google DeepMind, Google Research] Abstract 주요 내용: 이 논문은 인간의 선호도에 맞춰 대규모 언어 모델(Large Language Model, LLM)의 출력 품질을 향상시키기 위해 인간 피드백으로부터의 강화학습(Reinforcement Learning from Human Feedback, RLHF) 방법을 제안합니다. 제안하는 알고리즘의 이름은 Reinforced Self-Training (ReST)이며, 이는 강화학습(Reinforcement Learning, RL)의 성장 배치 방식에 ..

원문링크 : <RLHF> Reinforced Self-Training (ReST) for Language Modeling (2023.08)

등록된 다른 글

<RLHF> Reinforced Self-Training (ReST) for Language Modeling (2023.08)

등록된 다른 글

2022(하반기) 삼성전자 DX SCSA 전형 GSAT 합격후기

AI Expo Korea 2024 국제인공지능대전 후기

AI and Society(2)

<Retrieval, In-Context Learning> RAVEN: In-Context Learning with Retrieval Augmented Encoder-Decoder Language Models

Deep Neural Network(1)

[프로그래머스] 두 원 사이의 정수 (Python)

Analysis of Algorithms(4) : Order-of-Growth Classifications

LG Aimers 3기 오프라인 해커톤 후기(STAFF)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티