자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화


자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개념 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어 말뭉치 말뭉치는 원시 텍스트(ASCII나 UTF-8)와 이 텍스트에 연관된 메타데이터를 포함한다. 메타데이터는 식별자, 레이블, 타임스탬프 등 텍스트와 관련된 어떤 부가 정보도 될 수 있다. 즉, 말뭉치는 텍스트를 가공·처리·분석할 수 있는 형태로 모아 놓은 자료의 집합이다. 단순하게 생각하면 우리가 사용하는 텍스트 표본이라고 볼 수 있다. 모두의 말뭉치 (kor..


원문링크 : 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화