IQR(Interquartile Range)을 활용한 이상치 제거


IQR(Interquartile Range)을 활용한 이상치 제거

이상치, Outlier는 다른 관측 데이터들과 크게 다른 데이터이다. 일반적으로 기계학습 모델의 성능을 저하시키므로, 이상치를 탐색하고 제거해 준다. 이상치를 다른 데이터들과 크게 다른 데이터로 정의했는데, 여기서 크게 다른 데이터의 탐색 기준이 모호하다. 따라서, 이상치 탐색에 대한 다양한 방법들이 있으며, IQR은 그중 간단하고, 효과적인 방법 중 하나이다. IQR, Interquartile ragne의 약자로 사분위수에서 제3사분위수와 제1사분위수의 차이로 정의한다. 사분위수는 데이터를 4등분 한 것으로 제2사분위수는 데이터의 중앙값을 의미한다. 아래 그림에서 Q1, Q2, Q3는 각각 제1분위수, 제2분위수, 제3분위수는 Q3를 의미하며, 정의에 따라 IQR은 Q3-Q1로 쓸 수 있다. IQR을 정의하면, IQR을 활용해 새로운 데이터 범위를 결정한다. IQR을 통한 이상치 제거는 새로 정의한 범위의 바깥에 위치한 데이터를 이상치로 탐색하고 제거하는 방법이다. 새로운 데이터 ...


#IQR #기계학습 #이상치제거

원문링크 : IQR(Interquartile Range)을 활용한 이상치 제거