4.11. [PYTHON] 파이썬 말뭉치 처리


4.11. [PYTHON] 파이썬 말뭉치 처리

오늘은 말뭉치(Corpus) 라는 것에 대해 배웁니다. 코퍼스에 대해서는 여기를 참고하세요. 말뭉치란 "자연어 처리를 위한 분류된 언어의 표본 집합"을 말하며 파이썬에서만 쓰이는 것은 아닙니다. 위키백과에는 "언어의 빈도와 분포를 확인할 수 있는 자료"라고 언급되어 있습니다. 크롤러를 통해서 인터넷 상의 자료를 잔뜩 긁어 모은 후에 자료를 분석해야 하는데 이때 텍스트 분석에 필요한 것이 말뭉치입니다. 파이썬에서 말뭉치 처리를 하기 위해서는 "konlpy" 패키지가 설치되어 있어야 합니다. 설치해보고 나서야 알았는데 이녀석은 같이 동작하는 JAVA, JPype 등의 설치 환경, 윈도우 비트 수 등과 관려하여 설치나 설정이 여간 번거로운게 아닙니다. konypy 설치에 대한 참고사항은 여기를 참고하십시오. 설치 명령은 다음과 같습니다. "pip3 install konlpy" 무작정 설치하고 나니 그 유명한 "TypeError: Package kr.lucypark.okt.OktInterf...


#corpus #konlpy #Okt #TypeError #자연어처리 #한국어말뭉치

원문링크 : 4.11. [PYTHON] 파이썬 말뭉치 처리