<Adversarial Attack> Universal and Transferable Adversarial Attacks on Aligned Language Models

최근(2023.07)에 나온 논문을 읽어보고 간단히 정리했습니다. 혹시 부족하거나 잘못된 내용이 있다면 댓글 부탁드립니다 ️ usechatgpt init success 언어 모델이 부정적인 표현들을 반환하도록 Adversarial Attack을 감행. 자동화를 통해 획득한 이 Attack은 굉장히 높은 확률로 jail break에 성공하고, 다른 모델들에 대해서도 유효하다는 결과. 배경 일부 기업들은 언어 모델이 악용될 수 있다는 이유로 이를 오픈소스로 공개하지 않고 있습니다. 구체적으로 말하자면 언어 모델이 부정적인 답변을 생성해냄으로써 악영향을 끼칠 수 있다는 것이죠. 예를 들어 ‘인류를 대학살하는 방법을 알려줘’라는 질문에 언어 모델이 완벽한 솔루션을 제공해준다면 어떻게 될까요? 이런 상황들을..

원문링크 : <Adversarial Attack> Universal and Transferable Adversarial Attacks on Aligned Language Models

등록된 다른 글

<Adversarial Attack> Universal and Transferable Adversarial Attacks on Aligned Language Models

등록된 다른 글

Batch Normalization

Into to linear regression

Object Localization

<Retrieval> [DSI] Transformer Memory as a Differentiable Search Index (2022.02)

[네이버 부스트캠프 AI Tech 4기] 수료 기념 후기 (+ for 부캠 지원자)

[프로그래머스] 연속된 부분 수열의 합 (Python)

[Short Paper Review] Distilling Step-by-Step! Outperforming Larger Language Models with Less Training Data and Smaller Model Sizes

[Short Paper Reveiw] AutoML-GPT: Automatic Machine Learning with GPT

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티