1. statsmodels (통계 분석/회귀)
모듈 / 함수 | 주요 사용 범주 | 예시 / 설명 |
ols | 선형회귀 | ols('y ~ x1+ x2', data =df,).fit() |
logit | 로지스틱 회귀(분류) | logit('y ~ x1 + x2 ', data =df).fit() |
model.summary() | 결과요약 | 회귀계수 t값, p값, 결정계수 출력 |
model.tvalues | t검정통계량 | 각 변수의 t값 |
model.pvalues | p-values(유의 확률) | 유의미성 판단 (x < 0.05면 의미있음) |
model.rsquared | 결정계수 | 회귀 적합도 0~1, 높을수록 좋음 |
model.params | 회귀계수(coef) | 독립변수 영향력 |
2. sklearn.ensemble
(머신러닝 모델)
클래스 | 사용 범주 | 예시 / 설명 |
RandomForestClassifier | 분류(문자/범주 예측) | 다중분류(문자형 타겟, 라벨 인코딩 필요) |
RandomForestRegressor | 회귀(숫자 예측) | 연속형 목표변수 예측 |
3. sklearn.metrics
(성능 평가)
함수 | 주요 사용 범주 | 예시 / 설 |
mean_squared_error(y, pred) | 회귀: MSE | MSE, squared=False면 RMSE |
f1_score(y, pred, average=...) | 분류: F1점수 | macro, micro 등 |
accuracy_score(y, pred) | 분류: 정확도 | 분류 맞춘 비율 |
4. sklearn.preprocessing
함수 / 클래스 | 사용 범주 | 설명 / 예시 |
StandardScaler | 표준화 | 평균0, 표준편차 1로 변환 fit_trans |
MinMaxScaler | 정규화 | 0~1 사이로 변환 fit_transform(X) |
RobustScaler | 중앙값 정규화 | 이상치에 강함 중앙값(median) 기준 변 |
MaxAbsScaler | 절댓값 정규화 | -1 ~ 1 사이로 변환 음수 포함 가능 |
Normalizer | 행(샘플) 단위 정규화 | 각 행의 벡터 크기를 1로 만듦 (주로 텍스트 벡터) |
5. form scipy import stats
pearsonr(a, b) | 피어슨상관계수 + p값 | corr, p = pearsonr(x, y) |
ttest_1samp | 단일 표본 t검 | 한 집단의 평균이 특정 값과 같은지 가설 |
ttest_ind(a, b) | 두 집단 평균 차 t검정 | 독립 2표본 t-검정 |
ttest_rel(대응 쌍체 표본t검정) | 두 그룹 전후 비교 | |
f_oneway(a, b, ...) | 분산분석 anova (일원배치법) 그냥 집단 간 평균차이(일원분산분석)만 필요: |
3개 이상 그룹 평균차이 검정 |
anova_lm(model) | 회귀분석, 다중요인(범주형 변수 등) 영향력까지 표로 보고 싶을 | |
shapiro | 정규성 검정 | p값이 0.05이상이면 정규분포로 봄 |
levene(a, b) | 등분산 검정(Levene) | 분산이 같은지 비 |