[ML] 데이터 표현과 특성 공학, 범주형 변수


[ML] 데이터 표현과 특성 공학, 범주형 변수

파이썬 라이브러리를 활용한 머신러닝 책을 보고 정리한 내용입니다. 특성 공학 데이터 포인트가 실수형 배열이면 연속형 특성이라고 한다. 허나 일반적인 데이터 포인트의 형태는 categorical feature(범주형 특성) 또는 discrete feature(이산형 특성)이다. 이 특성은 보통 숫자 값이 아니다. 범주형 특성은 브랜드, 색상, 판매 분류 등이 있다. 상품을 묘사하는 속성이지만 연속된 값이 아니다. 중요한 건 옷에 속하거나 책에 속한다는 것이다. 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 더 크다. 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 특성..........

[ML] 데이터 표현과 특성 공학, 범주형 변수에 대한 요약내용입니다.

자세한 내용은 아래에 원문링크를 확인해주시기 바랍니다.



원문링크 : [ML] 데이터 표현과 특성 공학, 범주형 변수