Keras Tokenizer 와 SentencePiece 비교 이해

Keras vs SentencePiece 1. fit_on_texts() : keras.preprocessing.text.Tokenizer에 내장된 함수로, 사전을 만들기 위한 준비작업 Sentencepiece : 파일을 불러올 때 SentencePieceTrainer.Train("--input 파일명 --model_prefix=korean_spm --vocab_size= 보카사이즈") 이렇게 불러오면, prefix 단위로 토큰화, idx 매길 준비를 한다. 불러올 때 이미 토큰화를 내재적으로 하기때문에, 다른 두개와 달리 토큰화된 문장 list가 아니라 온전한 원문 문장 list를 매개변수로 전달함. 2. texts_to_sequences() : word to 숫자 Sentencepiece : Enco..

원문링크 : Keras Tokenizer 와 SentencePiece 비교 이해

Keras Tokenizer 와 SentencePiece 비교 이해

등록된 다른 글

참고) 함수에 대하여.

알고리즘 선택하기

Fund 4. Github에 Git Push 하기 (Git & Github의 차이점)

시계열 개념 / ADF Test / 시계열 분해 /ARIMA

Ex12_ NLP / 뉴스 요약봇

참고) Enumerate/Yield/Generator/Try/Accept/Multiprocessing

오답노트) 간단명료 코드 만들기

참고) zip( ) 함수

키자드 로그인

키자드

네이버 블로그

티스토리

커뮤니티