자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어


자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개녀 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 정제(Cleaning) 정제 및 정규화는 텍스트 데이터를 용도에 맞게 바꾸는 방법이다. 말뭉치로부터 노이즈 데이터를 제거한다. 토큰화 작업에 방해가 되는 부분을 제거한다. 보통 토큰화 작업 전에 정제 작업을 진행하지만 토큰화 작업 후에도 남아있는 노이즈 데이터를 지우는 데 활용하기도 한다. 정제 작업에서 제거할 노이즈 데이터라고 하면 의미가 없는 단어(특수문자, 공백 등..


원문링크 : 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어