<Reward> Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation (2024.01)

관심 있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [McGill University, University of Toronto, Mila, Google Research] - LLMs의 비판 능력을 활용하여 RL 학습 동안 intermediate-step rewards를 생성할 수 있도록 하는 프레임워크, RELC를 제안 - poicy model과 critic language model을 결합하는 method - critic language model로부터의 feedback은 token 또는 span 단위의 rewards로 전달됨 출처 : https://arxiv.org/abs/2401.07382..

원문링크 : <Reward> Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation (2024.01)

등록된 다른 글

<Reward> Beyond Sparse Rewards: Enhancing Reinforcement Learning with Language Model Critique in Text Generation (2024.01)

등록된 다른 글

2022(하반기) 삼성전자 DX SCSA 전형 면접 불합격 후기

<LLM> Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN Fine-Tuning

Recognising mapping matrices and applying these to data

Logistic Regression as a Neural Network(2)

<LK Lab, Retrieval> [Np Decoding] Nonparametric Decoding for Generative Retrieval (2023.05)

Region Proposals (Optional)

<Adversarial Attack> Universal and Transferable Adversarial Attacks on Aligned Language Models

SQuAD paper review(해석)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티