[인공지능] K-means Clustering, K-평균 군집화

1. K-평균 군집화란? 레이블이 없는 데이터를 입력받아 각 데이터에 레이블을 할당해 군집화를 수행하는 방법 - 왜 사용하나? 주어진 데이터에 대한 군집화 - 언제 사용하나? 주어진 데이터셋을 이용하여 몇개의 클러스터를 구성할지 사전에 알 수 있을때 분류 과정 1) 랜덤하게 초기 중심점 선택 2) K개의 중심점과 각각 개별 데이터간의 거리를 측정한 후 가장 가까운 중심점을 기준으로 데이터 할당 3) 새로운 중심점 선택 4) 중심점의 변화가 없다면 진행을 멈추로, 변화가 있다면 1-3 반복 SSD(Sum of Squared Distance, 거리 제곱 합) : 두 데이터의 차를 구해 제곱한 값을 모두 더해 유사성을 측정하는데 사용됨 k-평균 군집화와 맞지 않는 경우 - 데이터가 비선형일 때 - 군집 크기가 다를 때 - 군집마다 밀도와 거리가 다를 때 2. k-평균 군집화 예제 훈련 데이터셋에서 적당한 K값 예측 https://blog.naver.com/ska097777/22271519...