이전 글에서는 모델이 결과를 생성해내는 3가지 방법에 대해 배워봤다면, 이번 글에서는 생성한 글을 어떻게 평가할 것인지에 대해 알아보겠습니다. 다른 머신러닝 학습의 평가 과정과는 달리 자연어 생성에서의 평가 방식은 조금 더 주의를 요하는데요. 그 이유는 무엇일까요? 생성한 문장과 각 자리에서 기대되는 ground truth값들의 차이를 목적함수로 두는 평가 방식을 취했다고 가정해봅시다. 이때 가령 "I love you"라는 문장을 생성해야 하는데 "oh I love you"를 생성한 경우, 첫 단어를 잘못 생성했다는 이유만으로 단어가 한 칸씩 밀리게 되어 모든 자리에서 정답과 일치하지 않게 되어 점수가 0이 나올 것입니다. 문장의 전체적인 의미는 같은데 말이죠. 이러한 문제를 해결하기 위해 어떻게 할 수 있을까요? Precision and Recall 정밀도와 재현율에 대해서는 이 글을 통해 확인할 수 있습니다. 정밀도와 재현율을 평가 지표로 사용하여 평가해봅시다. 정밀도 : 맞은...
#BLEU
#재현율
#자연어처리
#모델평가
#모델
#score
#recall
#precision
#nlp
#evaluation
#정밀도
원문링크 : 모델 평가하기