EDA 노트


EDA 노트

상관계수의 절대값이 높다고 해서, 그 요소가 result의 원인이 되는 것은 아니다. breast cancer에서 softness error와 악성간의 상관계수지수가 높긴 했지만, 그렇다고 softness error가 암의 원인은 아니다. 시각화하는 seaborn의 유형을 잘 고르면 내가 전달하고 싶은 말을 효과적으로 할 수 있다. seaborn 유형을 더 많이 이해해야할 필요가 있다. bike 3시 예측하는 eda에서 나는 시간별, 온도, 습도에 따른 count 비교를 하고 싶었지만, 그 유형을 찾는데 (violin) 많은 시간이 걸렸고, 더불어 시간적 제한으로 결국 구현해보지 못하고 제출했다. duplicated는 전체로, index로 쓸 column 으로 각각 실행해야한다. 이상치 (Outlier)..


원문링크 : EDA 노트