feature selection


feature selection

Information Value 설명: Variance Threshold 설명: 저 분산(low-variance) 피쳐 제거. training set의 분산 확인. 분산이 0이면 모든 샘플에서 동일한 값을 갖고 있다는 뜻. Threshold를 .8 * (1 - .8))이라고 하면 80% 넘게 동일한 값을 가지고 있는 컬럼이 제거 됨. chi2 설명: f_regression 설명: F-statistic 과 p-value를 반환하는 일변량 선형회귀 테스트. 여러 회귀 변수에 대해 순차적으로 단일 회귀 변수의 효과를 테스트하는 빠른 선형 모델. Step1: 회귀 변수와 타겟 변수의 cross 상관관계는 r-regression을 이용해 계산 됨. r-regression: 각 피쳐와 타겟에 대한 피어슨 r(피어슨..


원문링크 : feature selection