파이썬 pandas, numpy로 의사결정 트리 ID3


파이썬 pandas, numpy로 의사결정 트리 ID3

의사결정 나무(decision tree)는 굉장히 친숙한 방법입니다. 우리는 자주 대상을 범주화해 인식하고 분류를 결정합니다. 시험 문제를 풀 때라든지, 상품을 구매할 때도 짧은 순간에 수많은 질문들을 거쳐 결정합니다. 배달을 시킬 때 가격이 비싼지, 할인을 하는지, 대체재가 있는지를 따집니다. 의사결정 나무는 이 방법을 자동화한 동일한 전략입니다. 스무고개 알고리즘이죠. 이진탐색트리랑 비슷하게 생각하면 되겠습니다. 알고리즘의 최적화는 주어진 데이터를 분류했을 때 오분류를 최소화하는 것이 목적입니다. 다르게 말하면 '분류 집합 안에 같은 것들만 있어야 한다'와 같습니다. 결정 기준을 만드는 여러 방법 중 ID3는 분류 집합의 불순도를 계산하기 위해 엔트로피를 사용합니다. 엔트로피는 위 공식으로 계산되며 c는 범주의 수, p_i는 집합에서 그 범주가 차지하는 비율을 사용합니다. 간단하게 생각하면 특정 종의 비율이 압도적으로 커질수록 엔트로피가 작아집니다. 옆의 그림은 이분 데이터의 경...


#decision #id3 #numpy #pandas #python #tree #머신러닝 #의사경정트리

원문링크 : 파이썬 pandas, numpy로 의사결정 트리 ID3