[ NLP 한국어 토큰화 ] 파이썬 python 한국어 한글 자연어 처리 NLP ( 토큰화, colab에 KoNLPy Mecab을 설치 빅데이터 분석 마스터 )

파이썬(python), 한국어인 한글 자연어(NLP) 처리를 위한 토큰화(tokenization)는 KoNLPy를 통해 할 수 있으며, Mecab의 성능이 가장 좋아... [ 파이썬 python 한국어 한글 자연어처리를 위한 KoNLPy Mecab으로 토큰화 이해하기 ] 한국어는 영어와는 달리 띄어쓰기로 토큰화하면 만족스러운 결과를 얻지 못한다. 특히 한국어는 띄어쓰기를 준수하지 않아도 의미가 전달되는 경우가 많아 띄어쓰기가 지켜지지 않을 가능성이 존재한다. 그 이유는 한국어가 교착어이기 때문이다. 교착어란 조사, 어미 등을 붙여서 말을 만드는 언어를 의미한다. 그래서 한국어 토큰화는 의미를 가진 가장 작은 말의 단위인 형태소(morpheme)를 이용한다. 형태소는 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등 조사나 어미 없이 단어 자체를 사용할 수 있는 자립형태소와 접사, 어미, 조사, 어간처럼 다른 형태소와 결합해 사용하는 의존형태소가 있다. <형태소 예제>...