DATA ENGINEERING 2026
데이터 클리닝 가이드:
품질 평가 및 이상점 분석
1 데이터 품질의 4대 핵심 지표
신뢰할 수 있는 데이터 분석을 위해서는 다음의 4가지 품질 평가 기준을 충족해야 합니다.
- 완결성 (Completeness): 필수적인 데이터는 모두 기록되어야 하며, 결측값 처리가 완료된 상태여야 합니다.
- 유일성 (Uniqueness): 동일한 데이터가 불필요하게 중복되어 분석 결과에 편향을 주어서는 안 됩니다.
- 통일성 (Conformity): 데이터가 동일한 단위와 규격, 형식으로 일관성 있게 저장되어야 합니다.
- 정확성 (Accuracy): 실제 측정값과 기록된 데이터가 일치하며 오류가 없어야 합니다.
2 결측값(Missing Value) 대응 전략
결측값은 데이터셋에서 정보가 누락된 상태를 의미하며, 분석의 정확도를 크게 저해합니다.
결측값은 최대한 존재하지 않는 것이 가장 이상적입니다. 만약 특정 변수에서 결측값이 빈번하게 발생한다면 단순 처리에 그치지 않고 데이터 수집 프로세스상의 근본적인 원인을 파악해야 합니다.
3 이상점(Outlier) 판단 및 처리
이상점이란 전체적인 데이터 분포에서 동떨어져 있는 극단적인 값을 의미합니다.
판단 기준: Boxplot & IQR
통계적으로 Boxplot을 활용할 때, 제1사분위수(25%)와 제3사분위수(75%) 사이의 거리인 IQR에 1.5를 곱한 범위를 벗어나는 데이터를 이상점으로 간주합니다.
이상점이 발견되었을 때는 데이터의 성격에 따라 다르게 접근해야 합니다.
- 기록 오류 등 분석에 방해가 되는 요소라면 제거합니다.
- 희귀한 현상이지만 유의미한 정보를 담고 있다면 유지하여 별도의 분석을 수행합니다.
4 관계적 이상점의 이해
관계적 이상점(Relational Outlier)은 단일 변수로는 정상 범위에 속해 보이지만, 두 개 이상의 변수 간 관계를 고려했을 때 논리적으로 어긋나는 데이터를 의미합니다. (예: 나이가 5세인데 직업이 '의사'로 기록된 경우)
# Python Pandas를 이용한 결측치 및 이상치 확인 예시 (2026.02 기준)
import pandas as pd
# 결측치 확인
null_counts = df.isnull().sum()
# IQR 기반 이상치 필터링 함수
def get_outliers(df, column):
Q1 = df[column].quantile(0.25)
Q3 = df[column].quantile(0.75)
IQR = Q3 - Q1
return df[(df[column] < (Q1 - 1.5 * IQR)) | (df[column] > (Q3 + 1.5 * IQR))]
'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글
| 데이터 클리닝(유일성) (0) | 2024.06.04 |
|---|---|
| 데이터 클리닝(완결성) (0) | 2024.06.04 |
| Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드 (0) | 2024.06.03 |
| Pandas 완전 정복: 데이터 분석의 시작과 DataFrame 생성법 (0) | 2024.06.03 |
| 5. numpy 기본 통계 (0) | 2024.06.03 |