[파이썬 데이터 분석] kNN(k 최근접 이웃) - 이론


[파이썬 데이터 분석] kNN(k 최근접 이웃) - 이론

타이타닉 침몰 희생자의 데이터를 기반으로 한 로지스틱 회귀 모형을 황급히 끝내고 이번엔 KNN으로 넘어가자. 본래 데이터 시각화 부분이 있긴 했지만 그래프가 뜨지 않는다(...)

KNN은 분류와 회귀 두 가지 문제를 해결할 수 있는 방법으로, 신규 데이터와 거리가 가장 가까운 k개 데이터의 정보를 이용하여 분류 및 예측을 수행한다. k 최근접 이웃 k 최근접 이웃(k Nearest Neighbors; kNN)은 다른 분류 알고리즘과 가장 큰 차이는 사전에 분류 모형을 생성하지 않고, 신규 데이터 분류가 필요할 때 분류를 수행한다는 점이다. 때문에 다른 방법과 달리 별도의 모형이 존재하지는 않는다.

분류 및 회귀 방법 개요 kNN 알고리즘은 예측의 경우 인접한 k개 이웃의 반응 변수의 평균값이나 중앙값을 주로 이용하며 좀 더 발전된 방법으로는 거리를 이용한 가중 평균법이 이용된다. 분류 문제의 경우에는 k개 인접 관측치의 각 그룹별 비율을 이용하여 가장 비중이 높은 집단으로 결정한다...


#kNN #해밍거리 #코사인거리 #유클리드거리 #분류 #맨해튼거리 #데이터분석 #거리 #k최근접이웃 #k값 #회귀

원문링크 : [파이썬 데이터 분석] kNN(k 최근접 이웃) - 이론