데이터 전처리 이상치 탐색 및 처리하기 변수변환 방법


데이터 전처리 이상치 탐색 및 처리하기 변수변환 방법

저번 포스팅에서는 결측치 처리 방법에 대해 간단하게 알아봤습니다. 여러가지 imputation 방법에 대해서는 추후에 자세히 포스팅 하기로 하고, 오늘은 이상치 탐색 방법과 간단한 처리 방법에 대해서 소개해보려고 합니다. 1. 이상치란? 데이터의 전체적인 패턴에서 동떨어져 있는 관측값. 변수 분포에서 비정상적으로 벗어난 값. 편차가 큰 값. → 이상치를 탐색하기 위해 분포를 그려보는 과정(box plot, scatter plot, histogram)이 꼭 필요함. 여러 test를 하는 것보다 효과적. 2. 이상치의 종류 1) 데이터 생성 시 실수로 생겨난 이상치 수집 과정에서의 오류, 측정단위 오류, 실험 과정에서의 오류 2) 자연적으로 발생한 이상치 직원 월급 중 임원들의 월급은 일반 사원들의 월급과 큰 차이가 나기 때문에 따로 분석해야 함. 자연적으로 큰 차이가 발생하는 경우임. 3) 역코딩에 의한 이상치 설문지에서 의도적으로 1번과 5번 성향을 바꿔놨는데 데이터 분석 시 고려를...


#공부블로그 #대학생 #데이터전처리 #이상치처리 #통계공부

원문링크 : 데이터 전처리 이상치 탐색 및 처리하기 변수변환 방법