완결성 (Completeness): 필수적인 데이터는 모두 기록되어 있어야함, 결측값이 처리
유일성 (Uniqueness): 동일한 데이터가 불필요하게 중복되어 있으면 안됨
통일성 (Conformity): 데이터가 동일한 형식으로 저장되어 있어야 함
정확성 (Accuracy): 데이터가 정확해야 함
결측값
- 없는것이 제일 좋다
- 자주 발생한다면 원인을 파악해야 한다.
이상점 (Outlier) : 다른 값들과 너무 동떨어져 있는 데이터
이상점을 판단하는 기준
boxplot : 25%, 75% 지점에서 1.5 * IQR 넘게 밑으로 떨어지면 이상점
이상점이 제대로 된 데이터
- 분석에 방해가 되면 제거
- 의미있는 정보라면 그냥 두기
관계적 이상점 (Realational Outlier) : 두 변수의 관계를 고려했을 때 이상한 데이터
'데이터 분석 > Data_cleansing' 카테고리의 다른 글
데이터 클리닝(정확성) (0) | 2024.06.04 |
---|---|
데이터 클리닝(유일성) (0) | 2024.06.04 |
데이터 클리닝(완결성) (0) | 2024.06.04 |