DATA ENGINEERING 2026

데이터 클리닝 가이드:
품질 평가 및 이상점 분석

1 데이터 품질의 4대 핵심 지표

신뢰할 수 있는 데이터 분석을 위해서는 다음의 4가지 품질 평가 기준을 충족해야 합니다.

완결성 (Completeness): 필수적인 데이터는 모두 기록되어야 하며, 결측값 처리가 완료된 상태여야 합니다.
유일성 (Uniqueness): 동일한 데이터가 불필요하게 중복되어 분석 결과에 편향을 주어서는 안 됩니다.
통일성 (Conformity): 데이터가 동일한 단위와 규격, 형식으로 일관성 있게 저장되어야 합니다.
정확성 (Accuracy): 실제 측정값과 기록된 데이터가 일치하며 오류가 없어야 합니다.

2 결측값(Missing Value) 대응 전략

결측값은 데이터셋에서 정보가 누락된 상태를 의미하며, 분석의 정확도를 크게 저해합니다.

💡

결측값은 최대한 존재하지 않는 것이 가장 이상적입니다. 만약 특정 변수에서 결측값이 빈번하게 발생한다면 단순 처리에 그치지 않고 데이터 수집 프로세스상의 근본적인 원인을 파악해야 합니다.

3 이상점(Outlier) 판단 및 처리

이상점이란 전체적인 데이터 분포에서 동떨어져 있는 극단적인 값을 의미합니다.

판단 기준: Boxplot & IQR

통계적으로 Boxplot을 활용할 때, 제1사분위수(25%)와 제3사분위수(75%) 사이의 거리인 IQR에 1.5를 곱한 범위를 벗어나는 데이터를 이상점으로 간주합니다.

이상점이 발견되었을 때는 데이터의 성격에 따라 다르게 접근해야 합니다.

기록 오류 등 분석에 방해가 되는 요소라면 제거합니다.
희귀한 현상이지만 유의미한 정보를 담고 있다면 유지하여 별도의 분석을 수행합니다.

4 관계적 이상점의 이해

관계적 이상점(Relational Outlier)은 단일 변수로는 정상 범위에 속해 보이지만, 두 개 이상의 변수 간 관계를 고려했을 때 논리적으로 어긋나는 데이터를 의미합니다. (예: 나이가 5세인데 직업이 '의사'로 기록된 경우)

# Python Pandas를 이용한 결측치 및 이상치 확인 예시 (2026.02 기준)
import pandas as pd

# 결측치 확인
null_counts = df.isnull().sum()

# IQR 기반 이상치 필터링 함수
def get_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    return df[(df[column] < (Q1 - 1.5 * IQR)) | (df[column] > (Q3 + 1.5 * IQR))]

TOP

저작자표시 (새창열림)

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

데이터 클리닝(유일성) (0)	2024.06.04
데이터 클리닝(완결성) (0)	2024.06.04
Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드 (0)	2024.06.03
Pandas 완전 정복: 데이터 분석의 시작과 DataFrame 생성법 (0)	2024.06.03
5. numpy 기본 통계 (0)	2024.06.03

류딩이

데이터 정제

데이터 클리닝 가이드:
품질 평가 및 이상점 분석

1 데이터 품질의 4대 핵심 지표

2 결측값(Missing Value) 대응 전략

3 이상점(Outlier) 판단 및 처리

판단 기준: Boxplot & IQR

4 관계적 이상점의 이해

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

티스토리툴바

데이터 정제

1 데이터 품질의 4대 핵심 지표

2 결측값(Missing Value) 대응 전략

3 이상점(Outlier) 판단 및 처리

판단 기준: Boxplot & IQR

4 관계적 이상점의 이해

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

관련글

티스토리툴바