레이블 인코딩 vs 데이터 인코딩


레이블 인코딩 vs 데이터 인코딩

레이블 인코딩 [문자열 -> 숫자형 카테고리] (크기와 관계 없는데 수치화로 오류 발생 가능 : 1,2,3….) from sklearn.preprocessing import LabelEncoder 방법1) df.replace([‘남’,’녀’], [1,2], inplace = True) 데이터프레임 df의 전체 record 값을 검색해서 '남'은 1로, '녀'는 0으로 바꿈 df.replace(['남', '녀'],[0,1], inplace = True)와 같이 inplace = True가 설정이 되어 있어야만 df에 replace 내용 반영 됨 df1 = df.replace(['남', '녀'],[0,1])의 경우에는 df에는 변경이 없지만, df1에는 replace 되어 있음 df['sex']= df['sex'].replace(['남', '녀'],[0,1])인 경우에는 'sex' 열의 데이터만 검색해서 '남'은 1로, '녀'는 0으로 바꿈 ※df.drop(), df.replace() ...


#해당

원문링크 : 레이블 인코딩 vs 데이터 인코딩