이상값의 원인 데이터 전처리를 말하기 전에 이상값부터 먼저 말하고 싶다. 이상값의 원인? 우리가 이상 값을 발견할 때마다 이를 해결하는 이상적인 방법은 이러한 이상값을 갖는 이유를 찾는 것이다. 그런 다음 처리 방법은 발생 이유에 따라 다르니다. 이상값의 원인은 크게 두 가지 범주로 분류 할 수 있다. 1. 인공(오류) / 비자연적 2. 자연적 다양한 유형의 이상값을 더 자세히 살펴보자. ○ 데이터 입력 오류 : 데이터 수집, 기록 또는 입력 중 발생하는 오류와 같은 인적 오류는 데이터에 이상값을 유발할 수 있다. ex) 연간 수입이 $ 100,000인 고객이 있다. 실수로 데이터 입력시 0을 추가하면, 이제 수입은 $ 1,000,000가 되어 10 배가 된다. 분명히 이것은 다른 모집단과 비교할 때 이..