1. 표준화(Standardization)란?
데이터 분석이나 머신러닝에서 변수의 단위가 다를 때(예: cm, kg 등)
모델이 특정 변수에 과도하게 영향을 받지 않도록 데이터를 일정한 기준으로 맞추는 과정을 말합니다.
표준화는 각 변수의 데이터를 평균 0, 표준편차 1로 변환합니다.
수식으로는 다음과 같습니다.
- μ 평균(mean)
- σ: 표준편차(standard deviation
2. (분류)Ex01 - 코드 예제
import pandas as pd
from sklearn.preprocessing import StandardScaler
# 1) 예시 데이터 생성
data = {
'height' : [160,165,170,175,180],
'weight' : [55,60,65,70,75]
}
df = pd.DataFrame(data)
print(df)
# 2) StandardScaler 객체 생성
scaler = StandardScaler()
# 3) 표준화 학습 (fit)
scaler.fit(df)
# 4) 표준화 변환 (transform)
x_scale = scaler.transform(df) # 방법 1: fit → transform
x2_scaler = scaler.fit_transform(df) # 방법 2: fit_transform 한 번에 수행
# 5) 결과 출력
print(scaler.mean_) # 각 변수의 평균
print(scaler.scale_) # 각 변수의 모표준편차(모집단 표준편차)
print(df.mean()) # 원본 평균
print("모표준편차 : ", df.std(ddof=0)) # 모집단 표준편차
print("표본 표준편차 : ", df.std(ddof=1)) # 표본 표준편차
print(f"표준화 평균 : {x_scale.mean()}")
print(f"표준화 표준편차1 : {x_scale.std()}")
print(f"표준화 표준편차2 : {x_scale.std(ddof=0)}")
print(f"표준화 표준편차3 : {x_scale.std(ddof=1)}")
3. 실행 결과 예시
height weight
0 160 55
1 165 60
2 170 65
3 175 70
4 180 75
scaler.mean_ : [170. 65.]
scaler.scale_ : [7.07106781 7.07106781]
원본 평균
height 170.0
weight 65.0
dtype: float64
모표준편차 :
height 7.071068
weight 7.071068
dtype: float64
표본 표준편차 :
height 7.905694
weight 7.905694
dtype: float64
표준화 평균 : 0.0
표준화 표준편차1 : 1.0
표준화 표준편차2 : 1.0
표준화 표준편차3 : 1.118033988749895
4. 주요 개념 정리
| 구분 | 설명 | |
| 평균(mean) | 각 열의 평균값 | scaler.mean_, df.mean() |
| 모표준편차(σ) | 모집단 기준 표준편차 (ddof=0) | scaler.scale_, df.std(ddof=0) |
| 표본표준편차(s) | 표본 기준 표준편차 (ddof=1) | df.std(ddof=1) |
| 표준화 결과 | 평균이 0, 표준편차가 1로 변환된 데이터 | x_scale |
5. fit, transform, fit_transform 차이
| 메서드 | 설명 |
| fit() | 데이터의 평균과 표준편차를 계산하여 저장 |
| transform() | 저장된 평균과 표준편차로 실제 변환 수행 |
| fit_transform() | 두 과정을 한 번에 수행 |
6. 정리
- 표준화는 머신러닝에서 매우 중요한 전처리 과정입니다.
- 평균 0, 표준편차 1로 맞추어 모델이 특정 변수에 치우치지 않도록 만듭니다.
- StandardScaler는 모집단 표준편차(ddof=0) 를 기준으로 계산합니다.
- 변환된 데이터는 항상 평균이 0, 표준편차가 1에 가깝게 됩니다.
'🟡데이터 분석 > 머신러닝' 카테고리의 다른 글
| 02_머신러닝_다중회귀(Multiple Linear Regression) (0) | 2025.11.04 |
|---|---|
| 01_머신러닝_단순 선형회귀 (Simple Linear Regression) (0) | 2025.11.03 |




























































































