데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편


데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편

오늘은 데이터 불균형 해소 방법에 대해 포스팅하려고 합니다. 데이터 불균형은 sampling(over sampling, under sampling, 복합 샘플링)을 통해 해결할 수 있습니다. 이번 포스팅에서는 Over Sampling에 대해서 먼저 알아보고, 이후에 Under Sampling, 복합 샘플링을 차례로 포스팅하겠습니다. ** 본 포스팅은 pc 버전에 최적화 되어 있습니다. ** ** 본 포스팅은 고려대학교 김성범 교수님 유튜브 강의를 참고해 정리한 글입니다. ** 들어가기 전에 Sampling, 왜 필요할까? 불균형 데이터 문제 해결! Sampling에 대해 알아보기 전에 Sampling이 왜 필요한지 먼저 알아봅시다. 결론부터 말씀드리자면, 불균형 데이터의 문제점을 해결하기 위해서입니다. 그림1 [그림1]을 보시면, 이상 데이터가 정상 데이터에 비해 적습니다. 이 경우, 분류 경계선이 다음과 같이 형성됩니다. 이때 회색점들은 아직 발견되지는 않았지만 이상 관측치인 경우...


#oversampling #sampling #undersampling #공부블로그 #대학생 #데이터 #불균형 #전처리 #통계학과

원문링크 : 데이터 불균형 해소를 위한 여러가지 샘플링 기법 - Over Sampling 편