한글 단어 예측 추천 코드


한글 단어 예측 추천 코드

10.07 자연어 강의 진도를 많이 나가고 싶었는데 전공 강의와 다른 코드 실습으로 영상은 몇편 보지 못했음. 하지만 정규식 활용 챕터에 들어가면서 이전 실습이 영양분이 되서 이해가 잘 되고 있음. 한글 기반 자동 단어 추천 코드 1) 카카오톡 기반 과적합이 발생하면서 정확도가 100%로 고정되는 문제 발생. 하지만 K-Fold 를 이용하거나 검증셋으로 나눈다 하더라도 과적합의 원인인 적은 데이터, 새로운 적용 데이터 부재, 너무 깔끔한 데이터 등의 문제가 해결되지 않으므로 굳이 두개의 셋트로 나눠서 정확도를 상식선의 수준으로 낮춰서 '표현'하는 것이 의미가 없다고 생각. 입력한 단어에 대해 예측 추천 단어가 표시되는데 단어 단위로 출력은 잘 되나, 결과가 우리가 흔히 유추하는 결과와 맞지 않거나 (주관적) 결과의 변화폭이 작은 문제가 있음. 데이터가 너무 적고, 대화체와 줄임말 등으로 인해 실질적으로 학습에 적용되는 코퍼스가 너무 적었기 때문으로 추정. 2) 현대소설 기반 카카오톡...


#AI #코퍼스 #자연어 #인공지능 #예측 #말뭉치 #딥러닝 #단어 #Otk #한글

원문링크 : 한글 단어 예측 추천 코드