데이터 취사선택의 어려움


데이터 취사선택의 어려움

KBO는 MLB에 비해서 일반인이 접근할 수 있는 데이터가 그리 많지는 않다. 그런데 그나마도 서로 데이터가 다른 경우가 존재한다. 예를 들면 일전에 썼던 스파크맨의 구종별 데이터... 구종분류는 측정하는 기기에 따라서도 다르게 분류될 수 있고, 선수 본인은 A를 던졌다고 했는데 B로 분류가 될 수도 있는 등 더욱 까다롭다. 가장 손쉽게 확인할 수 있는 방법은 많은 사람들에게 유명한 스탯티즈이지만... 스탯티즈는 미분류된 공이 존재하고, 미분류된 공은 전체 통계에서 제외해버리는 것으로 보인다. ex) 스파크맨 06/04 투구수는 101개이지만, 스탯티즈의 기록을 역산해보면 100개로 나온다. 내가 쓴 글은 스파크맨의 써드피치의 장착에 대해서 다루었기 때문에 구사 비율 자체가 많아야 10% 정도 나오는데.. 전체 투구 100여 개 중에 1개면 최소 1% 이상의 오차가 발생하게 되고, 스파크맨이 29구 / 49구 / 51구 등 적은 투구수만 소화한 경기도 꽤 있기에 2% 넘게도 차이가 ...


#미스테리 #체인지업인가 #커브인가

원문링크 : 데이터 취사선택의 어려움