통계 개념 용어, 내용 정리(2) - Machine Learning 기본 용어


통계 개념 용어, 내용 정리(2) - Machine Learning 기본 용어

과적합 발생원인 : c와 상관성이 거의 없는 c(예측에 도움이 안되는 입력변수)가 다수 존재하는 경우 학습결과 : 모델이 과도하게 복잡해져서 학습 데이터에 대한 오차는 최소화되지만 신규 데이터(검증 데이터)에 대 한 성능은 저하되는 과적합 현상 발생 대처 방안 : 중요 입력변수 선택 (c와는 상관성이 높지만 c 들간에 상관성이 낮은 변수) 다중공선성 발생원인 : c들간에 상관성이 강하게 존재하는 경우 학습결과 : 학습 데이터가 변할 때마다 모델 학 습 결과가 달라지는 현상 발생 대처방안 : 중요 입력변수 선택 (c와는 상관성이 높지만 c 들간에 상관성이 낮은 변수) K겹 교차검증 ( K-fold ) 모델의 성능을 보다 객관적으로 평가하기 위한 방법 학습 데이터를 c(주로 5 또는 10)개 부분으로 나눈 뒤 그중 하나를 검증 집합 나머지를 학습 집합으로 분류 위 과정을 c번 반복하고, c개의 검증 성능을 평균하여 모델의 적합성을 평가함 Z-Score 변환 Z-Score 변환은 각 변수...


#머신러닝 #머신러닝기본 #머신러닝용어 #통계공부 #통계기본

원문링크 : 통계 개념 용어, 내용 정리(2) - Machine Learning 기본 용어