완결성 (Completeness): 필수적인 데이터는 모두 기록되어 있어야함, 결측값이 처리
유일성 (Uniqueness): 동일한 데이터가 불필요하게 중복되어 있으면 안됨
통일성 (Conformity): 데이터가 동일한 형식으로 저장되어 있어야 함
정확성 (Accuracy): 데이터가 정확해야 함

 

결측값

  • 없는것이 제일 좋다
  • 자주 발생한다면 원인을 파악해야 한다.

 

이상점 (Outlier) : 다른 값들과 너무 동떨어져 있는 데이터

이상점을 판단하는 기준

 

boxplot : 25%, 75% 지점에서 1.5 * IQR 넘게 밑으로 떨어지면 이상점

 

이상점이 제대로 된 데이터

  • 분석에 방해가 되면 제거
  • 의미있는 정보라면 그냥 두기

관계적 이상점 (Realational Outlier) : 두 변수의 관계를 고려했을 때 이상한 데이터

'데이터 분석 > Data_cleansing' 카테고리의 다른 글

데이터 클리닝(정확성)  (0) 2024.06.04
데이터 클리닝(유일성)  (0) 2024.06.04
데이터 클리닝(완결성)  (0) 2024.06.04