단어 예측


단어 예측

DB 학생과 코딩에 관한 대화기록을 바탕으로 학습시켜, 입력된 단어의 다음에 올 단어를 자동으로 추천하는 코드를 만들었음. 자연어 전처리와 입력, 저장이 손이 많이 가서 보다 효율적인 동작을 위해 의논하며 진행. 1. 데이터 처리 1) 대화 기록 텍스트 파일을 두개 받았음. 2) with으로 불러온 후 list형으로 각자 변환하여 하나의 리스트로 합침. [cp949 ERROR] -> 인코딩 형식 수정으로 해결 3) 통합 텍스트 파일로 저장 4) 판다스로 불러와 컬럼을 구분하여 5) 불필요한 이름, 시간을 제외한 대화 기록만 남기는 것을 목표로 정리 ']'로 컬럼을 구분했는데 3개로 예상했던 것과 달리 대화 부분 이후에 추가로 None값이 대부분인 컬럼 2개가 더 생겼음. 채팅 정보가 아닌 대화 중간에 있는 대괄호 때문인 것으로 분석하여 nan1과 nan2로 이름 지은후 None값 갯수 차이를 구분 지으니 약 16,500개 중 13개만 해당되어 삭제함. '오전', '오후'를 포함하는 ...


#AI #토큰화 #정규표현식 #자연어 #임베딩 #인공지능 #머신러닝 #딥러닝 #단어예측 #LSTM #판다스

원문링크 : 단어 예측