자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP)를 학습할 때 필요한 용어들을 기초적인 지식 수준에서 이해하기 쉽게 정리합니다. 예제 코드는 Google Colab 을 기반으로 작성했습니다. 자연어 처리(NLP) 개녀 잡기의 다른 포스팅도 참고하세요. 자연어 처리(NLP) 개념 잡기 (1) - 말뭉치, 토큰화 자연어 처리(NLP) 개념 잡기 (2) - 표제어, 어간 정제(Cleaning) 정제 및 정규화는 텍스트 데이터를 용도에 맞게 바꾸는 방법이다. 말뭉치로부터 노이즈 데이터를 제거한다. 토큰화 작업에 방해가 되는 부분을 제거한다. 보통 토큰화 작업 전에 정제 작업을 진행하지만 토큰화 작업 후에도 남아있는 노이즈 데이터를 지우는 데 활용하기도 한다. 정제 작업에서 제거할 노이즈 데이터라고 하면 의미가 없는 단어(특수문자, 공백 등..

원문링크 : 자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

자연어 처리(NLP) 개념 잡기 (3) - 정제, 정규화, 불용어

등록된 다른 글

프로그래머스 - 콜라츠 추측 java

JavaScript / Vanilla JS :: input file 이미지 미리보기, 삭제 :: image preview and remove

Babel 을 사용해 오류 없는 javascript 코드를 만들자!

SQL: 웹(Web)에서 SQL 테스트 사이트 / SQL 무설치 테스트 사이트

Python Web Scraping :: PS Plus 게임 카탈로그 만료일 추출하기

PHP :: 클라이언트의 접속 정보 상세하기 확인하기 (device, os, browser)

프로그래머스 - 최댓값과 최솟값 JAVA

DAsP(데이터아키텍처 준전문가) :: 공부방법, 후기

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티