본문 바로가기
Data & AI Intelligence/▶Preprocessing & EDA

데이터 정제

by 류딩이 2024. 6. 4.
DATA ENGINEERING 2026

데이터 클리닝 가이드:
품질 평가 및 이상점 분석

1 데이터 품질의 4대 핵심 지표

신뢰할 수 있는 데이터 분석을 위해서는 다음의 4가지 품질 평가 기준을 충족해야 합니다.

  • 완결성 (Completeness): 필수적인 데이터는 모두 기록되어야 하며, 결측값 처리가 완료된 상태여야 합니다.
  • 유일성 (Uniqueness): 동일한 데이터가 불필요하게 중복되어 분석 결과에 편향을 주어서는 안 됩니다.
  • 통일성 (Conformity): 데이터가 동일한 단위와 규격, 형식으로 일관성 있게 저장되어야 합니다.
  • 정확성 (Accuracy): 실제 측정값과 기록된 데이터가 일치하며 오류가 없어야 합니다.

2 결측값(Missing Value) 대응 전략

결측값은 데이터셋에서 정보가 누락된 상태를 의미하며, 분석의 정확도를 크게 저해합니다.

💡
결측값은 최대한 존재하지 않는 것이 가장 이상적입니다. 만약 특정 변수에서 결측값이 빈번하게 발생한다면 단순 처리에 그치지 않고 데이터 수집 프로세스상의 근본적인 원인을 파악해야 합니다.

3 이상점(Outlier) 판단 및 처리

이상점이란 전체적인 데이터 분포에서 동떨어져 있는 극단적인 값을 의미합니다.

판단 기준: Boxplot & IQR

통계적으로 Boxplot을 활용할 때, 제1사분위수(25%)와 제3사분위수(75%) 사이의 거리인 IQR에 1.5를 곱한 범위를 벗어나는 데이터를 이상점으로 간주합니다.

이상점이 발견되었을 때는 데이터의 성격에 따라 다르게 접근해야 합니다.

  • 기록 오류 등 분석에 방해가 되는 요소라면 제거합니다.
  • 희귀한 현상이지만 유의미한 정보를 담고 있다면 유지하여 별도의 분석을 수행합니다.

4 관계적 이상점의 이해

관계적 이상점(Relational Outlier)은 단일 변수로는 정상 범위에 속해 보이지만, 두 개 이상의 변수 간 관계를 고려했을 때 논리적으로 어긋나는 데이터를 의미합니다. (예: 나이가 5세인데 직업이 '의사'로 기록된 경우)

 
 
 
# Python Pandas를 이용한 결측치 및 이상치 확인 예시 (2026.02 기준)
import pandas as pd

# 결측치 확인
null_counts = df.isnull().sum()

# IQR 기반 이상치 필터링 함수
def get_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    return df[(df[column] < (Q1 - 1.5 * IQR)) | (df[column] > (Q3 + 1.5 * IQR))]
Data & AI Intelligence > Preprocessing & EDA

Copyright 2026. All Rights Reserved.

TOP