데이터 전처리 결측치 처리 방법 in R


데이터 전처리 결측치 처리 방법 in R

요즘 학회에서 프로젝트를 진행 중이다. 큰 주제는 환경이고 세부 주제는 조 마다 자유롭게 정해서 프로젝트를 시작했다. 우리 조는 캐글의 수질 데이터를 이용해서 프로젝트를 진행하려고 한다. 현재 데이터 전처리 과정(결측치 처리)에서 어려움을 겪고 있다. 그래서 이번 포스팅에서는 결측치 처리 방법에 대한 공부를 해보려고 한다. 수많은 결측치 어떻게 처리하면 좋을까? 들어가기 전에 결측치를 평균, 중앙값, 최빈값, 최솟값으로 단순 대체하는 방법은 절대!! 사용하지 말것. Bias를 높일 뿐아니라, 모델링에 악영향을 미친다. p-value가 부정확해지고 변수간의 상관관계를 왜곡시킨다. 결론적으로 아주 안 좋은 방법. 1. 결측치의 종류 결측치마다 결측치를 처리하는 방법이 다르다. 때문에 결측치의 종류부터 알아봐야한다. 1) 완전 무작위 결측 (MCAR, Missing Completely At Random) 결측치가 다른 변수들과 아무런 관련이 없을 때. 상관관계가 낮을 때. 데이터가 MCA...


#결측치 #결측치처리 #공부블로그 #대학생 #데이터전처리 #통계 #통계공부 #통계학과

원문링크 : 데이터 전처리 결측치 처리 방법 in R