[ 텍스트 군집 분석 ] 파이썬 python 텍스트 마이닝 군집 분석 clustering ( scipy과 sklearn 활용 seaborn으로 시각화해 빅데이터 분석 마스터 )

파이썬(python), 텍스트의 단어 간 거리를 계산해 가까운 단어들끼리 묶어 유사성(similarity)이 높은 단어를 계층적(hierachical), K-means로 군집화(clustering) 하자... [ 텍스트를 이용한 군집 분석 ] 텍스트 군집 분석 개요 군집 분석(cluster analysis)은 유사한(similar) 한 객체들끼리 그룹화하는 작업이다. 데이터프레임에서 말한다면 유사한 특성(columns)을 가지고 있는 행(row)을 묶는 과정이라고 할 수 있다. 참고로 유사한 칼럼(변수)끼리 그룹 짓는 것은 요인 분석(factor analysis)이라고 한다. 군집분석은 묶으려고 하는 속성(변수)이 매우 중요하다. 어떤 속성을 가지고 그룹화하는지에 따라 그룹의 수가 달라지기 때문이다. 아래의 그림에서도 모양 또는 색깔 등 그룹화하려는 속성에 따라 그 유사성(similarity)을 달라져 서로 다른 그룹을 형성한다. [ 군집분석 clustering analysis 개요...