[머신러닝] 분류 모델 성능 평가 지표 : Precision Recall F-score

머신러닝 / 딥러닝 기초를 다지고자 coursera에서 Adrew Ng 강사가 진행하는 머신러닝 강의를 수강하게 되었다. 다음은 Machine Learning System Design 강의 내용을 정리한 것이다. 이번 강의에서는 데이터의 Class 크기가 균등하지 않은 경우에 발생하는 문제와 이 때 시스템 성능을 평가하는 방법도 알아본다. Handing Skewed Data class 별 데이터 수가 균등하지 않은 "편향된 데이터" 다루기 로지스틱 회귀 강의에서 언급했던 cancer classification의 예를 생각해보자. 로지스틱 회귀모델 h(x)를 이용하여 암이면 y=1, 암이 아니면 y=0으로 결정을 내리도록 시스템을 만들었다. 성능을 테스트 해봤더니 test set에서의 error가 1% 였다. 정확도가 99%이니, 아주 잘 작동하는 알고리즘처럼 보인다. 하지만 함정이 있다. 사실 환자의 0.5%만이 실제로 암이라면 어떨까? 항상 y=0으로 결정하는 알고리즘만으로도 0....