자연어 처리 기법


자연어 처리 기법

자연어 처리란! 컴퓨터가 인간의 언어를 이해하고 그것을 토대로 다양한 일을 수행할 수 있도록 하는 AI의 한 분야입니다. 최근 들어 딥러닝을 기반으로한 다양한 모델들이 인터넷에 존재하는 대규모의 데이터를 학습하여 엄청난 성능을 보여주고 있죠. 이러한 모델들을 이해하기 이전에 앞서 전통적인 자연어 처리 기법에 대해서 알아봅시다. Bag-of-Words "bag-of-words" 말 그대로 단어 가방을 의미합니다. 어쨌든 우리는 이 언어라는 것을 컴퓨터로 다루기 위해서는 컴퓨터에게 익숙한 숫자로 변환해야할 필요가 있습니다. 그것을 짧은 단어로 인코딩이라고 하는데, 그렇게 되면 긴 문장도 짧은 문자열로 압축이 가능합니다. step 1) 주어진 문장들에 대한 단어 집합인 '사전'을 만든다. step 2) 이러한 단어들을 원-핫 벡터로 인코딩한다. 아래 예시는 단어가 4개일 때의 원-핫 벡터이다. 각각의 벡터는 4차원 공간상의 기저로볼 수 있다. 이때 각각의 모든 단어 쌍은 거리가 루트 2이...


#bagOfWords #자연어 #베이즈규칙 #nlp #natural #model #language #classifier #bayes #자연어처리

원문링크 : 자연어 처리 기법