파이썬 라이브러리를 활용한 머신러닝 책을 보고 정리한 내용입니다. 특성 공학 데이터 포인트가 실수형 배열이면 연속형 특성이라고 한다. 허나 일반적인 데이터 포인트의 형태는 categorical feature(범주형 특성) 또는 discrete feature(이산형 특성)이다. 이 특성은 보통 숫자 값이 아니다. 범주형 특성은 브랜드, 색상, 판매 분류 등이 있다. 상품을 묘사하는 속성이지만 연속된 값이 아니다. 중요한 건 옷에 속하거나 책에 속한다는 것이다. 데이터가 어떤 형태의 특성으로 구성되어 있는가 보다 데이터를 어떻게 표현하는가가 머신러닝 모델의 성능에 주는 영향이 더 크다. 특정 애플리케이션에 가장 적합한 데이터 표현을 찾는 것을 특성..........
[ML] 데이터 표현과 특성 공학, 범주형 변수에 대한 요약내용입니다.
자세한 내용은 아래에 원문링크를 확인해주시기 바랍니다.
원문링크 : [ML] 데이터 표현과 특성 공학, 범주형 변수