word embedding


word embedding

한마디로 단어를 벡터로 표현하는 것을 의미합니다. 예를 들어 cat이라는 단어를 3차원 공간상의 벡터 (1, 3, 5)로 놓는 것입니다. 이때 아무 벡터로나 막 표현하는 것이 아닙니다. cat과 kitty는 의미적으로 비슷하므로 두 단어를 벡터로 표현했을 때 두 벡터의 거리가 짧아야 하며, car이라는 단어가 들어왔을 때 의미적으로 먼 단어이므로 벡터로 표현했을 때는 그 두 단어와 거리가 먼 벡터로 설정해야합니다. 이 글에서는 대표적인 word embedding 방법인 Word2Vec과 GloVe를 다룰 예정입니다. Word2Vec 워드 임베딩을 수행하는 대표적 알고리즘 중 하나로, 이 알고리즘의 주 아이디어는 다음과 같습니다. "문장 안에서 비슷한 위치에 위치한 단어는 유사한 의미를 가질 것이다." 즉 의미가 유사한 두 단어를 벡터로 표현했을 때 코사인 유사도가 커지도록 모델을 학습해야합니다. step 1) 우선 모든 문장에서 등장한 단어들을 가지고 사전을 만든다. {"i", "s...


#cbow #윈도우 #워드임베딩 #슬라이딩 #벡터 #word2vec #word #skipgram #glove #embedding #임베딩

원문링크 : word embedding