[ML] IQR를 이용한 이상치 데이터 제거


[ML] IQR를 이용한 이상치 데이터 제거

이상치 데이터(Outlier)는 전체 데이터의 패턴에서 벗어난 이상 값을 가진 데이터이다. outlier로 인해 머신러닝 모델의 성능에 영향을 받는 경우가 발생하기 쉽다. 이상치를 찾는 방법에는 IQR(Inter Quantile Range) 방식을 적용해서 찾을 수 있다. IQR은 사분위 값의 편차를 이용하는 기법으로 Box Plit으로 시각화할 수 있다. 일단 먼저 사분위란 전체 데이터를 값이 높은 순으로 정렬하고 이를 1/4(25%) 씩으로 구간을 분할하는 것을 지칭한다. 1/4구간은 Q1, Q2, Q3, Q4로 나눈다. 여기서 25% 구간이 Q1 ~ 75 % 구간인 Q3의 범위를 IQR이라 한다. IQR를 이용해 이상치 데이터를 검출하는 방식은 보통 IQR에 1.5를 곱해서 생성된 범위를 이..........



원문링크 : [ML] IQR를 이용한 이상치 데이터 제거