다중 공성선 체크


다중 공성선 체크

다중공선성은 일반적으로 회귀 분석 모델에서 발생하는 문제로, 회귀 분석에서 사용된 일부의 feature가 다른 feature와의 상관관계 정도가 너무 높아서 예측 성능에 영향을 주는 문제 예) 독립 변수 4개중 3개가 바깥 온도에 관련된 내용이고 변수 하나만 경제 상태인 경우에 외출 여부를 판단하게 되면 바깥 온도가 적정하면 무조건 외출로 예측하는 문제 발생 가능함 (예로 적절하지 않더라도 의미는 전달 될 것 같네요) Heatmap과 비교해서 보면 제거 해야 할 특성을 선택하는데 도움이 됨 Xtrain을 가지고 체크 (Xtrain - target이 빠진 독립 변수들로만 구성 되어있는 데이터) [다중 공선성 검출 변수 처리 방법] 1) 특성 제거: 다중 공선성이 있는 특성을 제거하는 것이 가장 간단한 방법임 특성의 정보가 손실되므로 주의 필요함 (제거할 특성을 선택하기 위해 변수선택기법을 사용할 수 있음) 2) 특성 결합: 다중 공선성이 있는 특성들을 결합하여 새로운 특성을 생성하는 ...



원문링크 : 다중 공성선 체크