<Supervision> [OpenAI] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision (2023.12)


<Supervision> [OpenAI] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision (2023.12)

관심있는 NLP 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success [OpenAI] - strong pretrained model을 weak supervisor를 통해 fine-tuning 하더라도 supervisor보다 뛰어난 성능을 보인다 - 이를 weak-to-strong generalization 현상이라고 부른다 - 미래에는 superhuman model을 학습하기 위해 RLHF와 같은 테크닉들을 적용할 수 없을 것이다 1. Introduction 오늘날 많은 언어 모델들은 Reinforcement Learning from Human Feedback(RLHF)와 같은 테크닉들을 통해 학습되고 있습니다. ..


원문링크 : <Supervision> [OpenAI] Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision (2023.12)