벡터화 발전과정 (BoW/DTM/TF-IDF/SVD/LSA/LDA/토픽모델링)

벡터화 분산표현이 대중화되기 전에 쓰이던 방법 단어의 의미! 를 부여하기 위한 인간의 노력들. 크게 빈도 / 분포 를 이용한 두가지 방법으로 나뉨 단어 빈도를 이용한 벡터화 1. BoW (Bag of Words) 문서 내 단어들을 다 쪼개서 >> 하나의 가방에 넣고 순서 무시하고 흔들어버림 >> 단어별 빈도수에 따라 정렬 >> 단어 분포를 보고 문서의 특성을 파악 Keras로는 tokenizer.word_counts를 딕셔너리로 만들면 BoW. sklearn로는 CountVectorizer.fit_transform(sentence).toarray() 로 BoW 만듬. Bow에는 단어별 빈도수까지 들어있기 때문에 단순 단어 색인인 fit_on_texts로 만든 word_index와는 다름. 한계 : 어순에..

원문링크 : 벡터화 발전과정 (BoW/DTM/TF-IDF/SVD/LSA/LDA/토픽모델링)

벡터화 발전과정 (BoW/DTM/TF-IDF/SVD/LSA/LDA/토픽모델링)

등록된 다른 글

막강한 클래스 (Class)

Day2. 데이터 전처리

추천 시스템 알고리즘/ MF / CSR

분류성능평가지표 : F1-score , Accuracy, ROC curve, AUC curve

MLE, MAP / prior, posterior, likelihood

OCR (광학문자인식)과 딥러닝

프로그래머스) 두 수의 차

참고) 최댓값, 최솟값 (함수에서 return 잘 활용하는법)

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티