[ 몽총이 파이썬 머신러닝 공부 - 07 ] 인코딩,스케일링


[ 몽총이 파이썬 머신러닝 공부 - 07 ] 인코딩,스케일링

7.1 데이터 인코딩 사이킷런 머신러닝 알고리즘은 문자열 값을 허용하지 않아 숫자형으로 값을 바꿔줘야한다. 이 과정을 인코딩이라고 한다. 이렇나 문자열들은 대부분 예측에 중요한 요소가 되지 않는다. 오히려 머신러닝 알고리즘을 복잡하게 만들어 예측 성능을 떨어뜨릴 수 있기 때문에 불필요한 문자열 값 들은 인코딩을 하지 않고 삭제하는 것이 좋다. 머신러닝에서 데이터 인코딩에서 대표적인 인코딩 방식은 레이블 인코딩과 원-핫 인코딩이다. 7.1.1 레이블 인코딩( Label encoding ) 레이블 인코딩은 LabelEncoder 클래스로 구현하며 LabelEncoder 객체를 생성하고 fit() 과 transform()을 이용해 레이블 인코딩을 수행한다. 이러한 인코딩은 다양하게 활용할 수 있다. encoder.classes_를 이용하면 인코딩된 숫자들의 원래의 값들을 알 수 있다. encoder.inverse_transform()을 이용하면 인코딩된 숫자를 배치하여 원하는 순서대로 원...


#데이터스케일링 #데이터인코딩 #파이썬머신러닝

원문링크 : [ 몽총이 파이썬 머신러닝 공부 - 07 ] 인코딩,스케일링