[머신러닝] 분류 모델 성능 평가 지표 : Precision Recall F-score


[머신러닝] 분류 모델 성능 평가 지표 : Precision Recall F-score

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Machine Learning System Design 강의 내용을 정리한 것이다. 이번 강의에서는 데이터의 Class 크기가 균등하지 않은 경우에 발생하는 문제와 이 때 시스템 성능을 평가하는 방법도 알아본다. Handing Skewed Data class 별 데이터 수가 균등하지 않은 "편향된 데이터" 다루기 로지스틱 회귀 강의에서 언급했던 cancer classification의 예를 생각해보자. 로지스틱 회귀모델 h(x)를 이용하여 암이면 y=1, 암이 아니면 y=0으로 결정을 내리도록 시스템을 만들었다. 성능을 테스트 해봤더니 test set에서의 error가 1% 였다. 정확도가 99%이니, 아주 잘 작동하는 알고리즘처럼 보인다. 하지만 함정이 있다. 사실 환자의 0.5%만이 실제로 암이라면 어떨까? 항상 y=0으로 결정하는 알고리즘만으로도 0....


#coursera #통계학과 #코세라머신러닝 #코세라 #정밀도 #재현율 #이웃환영 #알고리즘 #성능평가 #머신러닝 #대학생 #공부블로그 #Fscore #평가지표

원문링크 : [머신러닝] 분류 모델 성능 평가 지표 : Precision Recall F-score