이상치 데이터(Outlier)는 전체 데이터의 패턴에서 벗어난 이상 값을 가진 데이터이다. outlier로 인해 머신러닝 모델의 성능에 영향을 받는 경우가 발생하기 쉽다. 이상치를 찾는 방법에는 IQR(Inter Quantile Range) 방식을 적용해서 찾을 수 있다. IQR은 사분위 값의 편차를 이용하는 기법으로 Box Plit으로 시각화할 수 있다. 일단 먼저 사분위란 전체 데이터를 값이 높은 순으로 정렬하고 이를 1/4(25%) 씩으로 구간을 분할하는 것을 지칭한다. 1/4구간은 Q1, Q2, Q3, Q4로 나눈다. 여기서 25% 구간이 Q1 ~ 75 % 구간인 Q3의 범위를 IQR이라 한다. IQR를 이용해 이상치 데이터를 검출하는 방식은 보통 IQR에 1.5를 곱해서 생성된 범위를 이..........
원문링크 : [ML] IQR를 이용한 이상치 데이터 제거