카테고리형 데이터가 많을 시 고려사항


카테고리형 데이터가 많을 시 고려사항

카테고리형 데이터는 보통 pandas.get_dummies 혹인 LabelEncoder, OnelHotEncoding 을 사용하는데요 카테고리 데이터가 몇십 몇백개가 되면 연산속도도 느리고 피처가 너무 많아져서 과대적합이 일어날 수 있습니다. 그래서 서칭을 통해서 어떤 사항을 고려할 수 있는지 모아봤습니다! 1. 빈도수 기준 '기타' 처리 카테고리형 데이터에 unique한 값별로 얼마나 많은 비율을 차지하는지 확인하는 방법입니다. 만약 카테고리가 100개인데, 단 10개가 전체의 90%이상을 차지한다면 나머지 90개는 'other'로 분류할 수 있습니다. 2. Target Encoding 회귀의 경우에는 각 카테고리로 groupby를 해서 나오는 target의 mean 값을 사용할 수 있습니다. (하지만..


원문링크 : 카테고리형 데이터가 많을 시 고려사항