[Python] Adversarial Example 직접 생성해보기 (Targeted Misclassification)

Adversarial attack 이란 최근에 알게 된 재미있는 개념인데, 머신러닝 AI 를 상대로 의도적으로 변형된 이미지(Adversarial example)를 주입시켜 분류 알고리즘이 제대로 작동하지 못하도록 교란시키는 것이다 Adversarial example 은 원본 이미지에다 사람은 구별하기도 힘든 픽셀 단위의 작은 변화를 준 것이지만, 인공지능에게서 원본 이미지와 전혀 다른 결과값을 도출해 낼 수 있다 아래 이미지는 Explaining and Harnessing Adversarial Examples by Goodfellow et al 에 소개된 가장 유명한 적대적 샘플인 판다의 사진이다 왼쪽 사진을 보면 인공지능이 57.7% 신뢰도로 panda 라고 인식하지만, 중간에 있는 노이즈를 더한 사진을 다시 인식시키면 사람 눈에는 여전히 panda 임에도 불구하고 gibbon 으로 인식하는 것을 볼 수 있다 이런 식으로 모델의 traning dataset 을 직접 변형시키거나 ...

#adversarialattack #adversarialexample #적대적공격 #적대적샘플 #적대적이미지

원문링크 : [Python] Adversarial Example 직접 생성해보기 (Targeted Misclassification)