문자 데이터 분석

기업의 데이터(corporate data)의 80%에서 90%는 비구조화된 텍스트 형식이다. 숫자 데이터, 즉 양적 데이터는 다루기가 쉽다. 하지만 텍스트 데이터, 질적 데이터의 경우 다루기 어렵다. 당연히 이를 다루기 위해서는 적절한 도구가 필요하다. 텍스트 데이터는 비구조화 되어있으면서 양이 매우 많다. 양도 많지만, 하나하나 분석하는 것이 매우 어렵다. 텍스트 데이터의 특징은 다음과 같다. 먼저 고차원적이다. 특징 자체도 너무 많은데, 대부분의 양적 데이터는 수식화되어있어 관리하기 쉬운 반면 텍스트 데이터를 관리하는 식은 존재하지 않은 것에서 이를 알 수 있다. 같은 컨셉의 데이터를 표현하는 데에 많은 방식이 존재하고, 데이터의 반복성이 짙다. 앞서 언급했듯, 비구조화 되어있는 것도 큰 특징이다. 인간은 텍스트 데이터를 쉽게 받아들이지만, 기계는 그러지 못한다. 추상적인 생각들이 나타나 있으며, 양도 정말 많다. 왜 컴퓨터가 텍스트 데이터를 이해하기 어려울까? 간단한 예시를 들...