Isolation Forest


Isolation Forest

논문 링크 review 이상치 탐지(Anomaly Detection)는 학습 데이터 셋에 포함된 정상적인 샘플과 비정상 적인 이상치를 구별해내는 태스크입니다. 즉 정상인지 비정상인지 구분하는 이진 분류라고도 볼 수 있죠. 이러한 이상 탐지는 다양한 산업 분야에서 사용될 수 있는데 예를 들어 장비 오작동을 식별하거나 비정상적인 네트워크 활동을 감지, 비정상적인 환자 상태를 식별하는 등으로 사용될 수 있습니다. 그렇다면 이 논문에서는 어떤 아이디어를 이용하여 이상치를 탐지하였을지 살펴봅시다. 이 논문에서는 해당 샘플을 고립시키기 위해서 몇 번이나 데이터를 나눠야 하는지(split)를 이상치로 판단하는 기준으로 하였습니다. 이 논문에서는 나누는 횟수를 분리 횟수(path length)로 정의하였습니다. 아래 그림을 봅시다. x_i 데이터는 정상 샘플로, 사각형 안에 해당 샘플 혼자만 들어가도록 하기 위해서는 꽤 많은 분할이 필요합니다. 반면 x_0 샘플은 정상 샘플보다 더 적은 횟수의 ...


#anomaly #이상치 #paper #outlier #iTree #isolation #iForest #forest #detection #이상치탐지

원문링크 : Isolation Forest