문자 데이터 분석


문자 데이터 분석

기업의 데이터(corporate data)의 80%에서 90%는 비구조화된 텍스트 형식이다. 숫자 데이터, 즉 양적 데이터는 다루기가 쉽다. 하지만 텍스트 데이터, 질적 데이터의 경우 다루기 어렵다. 당연히 이를 다루기 위해서는 적절한 도구가 필요하다. 텍스트 데이터는 비구조화 되어있으면서 양이 매우 많다. 양도 많지만, 하나하나 분석하는 것이 매우 어렵다. 텍스트 데이터의 특징은 다음과 같다. 먼저 고차원적이다. 특징 자체도 너무 많은데, 대부분의 양적 데이터는 수식화되어있어 관리하기 쉬운 반면 텍스트 데이터를 관리하는 식은 존재하지 않은 것에서 이를 알 수 있다. 같은 컨셉의 데이터를 표현하는 데에 많은 방식이 존재하고, 데이터의 반복성이 짙다. 앞서 언급했듯, 비구조화 되어있는 것도 큰 특징이다. 인간은 텍스트 데이터를 쉽게 받아들이지만, 기계는 그러지 못한다. 추상적인 생각들이 나타나 있으며, 양도 정말 많다. 왜 컴퓨터가 텍스트 데이터를 이해하기 어려울까? 간단한 예시를 들...


#IDF #범주화데이터 #벡터공간모델 #분석 #시각화 #양적데이터 #워드클라우드 #질적데이터 #컴퓨터 #문자 #데이터분석 #데이터마이닝 #NLP #TF #TFIDFscore #경영정보시스템 #경영학 #기업데이터 #단어가방 #데이터 #텍스트데이터

원문링크 : 문자 데이터 분석