[ NLP Mecab 사전 추가 ] 파이썬 python 코랩 colab에 한국어 사전 Mecab에 단어 추가하고 빅데이터 분석 마스터


[ NLP Mecab 사전 추가 ] 파이썬 python 코랩 colab에 한국어 사전 Mecab에 단어 추가하고 빅데이터 분석 마스터

파이썬(python), 코랩(colab) 환경에서 사전에 등록되어 있지 않은 단어를 Mecab에 등록하고 한글 자연어(NLP) 처리하기... 구글 코랩에서 자연어 처리(NLP)를 실시하기 위해서는 분석하고자 하는 문장이나 문서를 형태소나 단어 단위로 토큰화(tokenization)를 해야 한다. 그런데 사전 기반 토큰화의 경우 사전에 등록되어 있지 않은 단어를 분석을 하지 못한다. 그리고 복합 명사의 경우에도 사전에 등록되어 있지 않다면 등록된 단어로 분리시킨다. 예를 들어서 "나는 코랩에 메캅 설치해서 금리인상 기사를 자연어 처리할 것이다'를 토큰화하면, 코랩과 메캅 사전에 등록되어 있지 않기 때문에 사라져 버리고, 금리인상이라는 복합 명사도 '금리', '인상'으로 분리된다. 분석을 원하는 단어가 추출되기 위해서는 메캅(Mecab) 사전에 등록을 해야만 한다. 코랩에서 메캅 사전에 단어를 등록시키는 방법은 다음과 같다. ① 메캅 설치 ② 단어 사전 파일(nnp.csv) 열기 ③ 단...


#konlpy #메캅 #자연어처리 #파이썬강의 #파이썬공부 #파이썬기초 #파이썬독학 #프로그래밍

원문링크 : [ NLP Mecab 사전 추가 ] 파이썬 python 코랩 colab에 한국어 사전 Mecab에 단어 추가하고 빅데이터 분석 마스터