| 함수 | 설명 |
| ols() | 선형회귀 모델 생성 |
| anova_lm() | 분산분석표 생성 |
| logit() | 로지스틱 회귀 |
| summary() | 분석 결과 요약() |
OLS기반 회귀분석 유형
| 분석종류 | 함수 | 설명 |
| 단순선형회귀 | ols( 'y ~ x' ) | 독립변수 1개 |
| 다중선형회귀 | ols( 'y ~ x1 + x2 + ... ' ) | 독립변수 여러개 |
| 유의미한 변수 찾기 | model.pvalues < 0.05 | p값 기반 필터링 |
| 다중공선성 확인 | from statsmodels.stats.outliers_influence import variance_inflation_factor |
VIF값 |
유의미한 독립변수 찾기
| 단계 | 설명 |
| 회귀 모델 만들기 | ols(...).fit() |
| p-value 확인 | medel.summary() / model.pvalues |
| 유의미한 변수 카운트 | sum(model.pvalues[1:] < 0.05 ) |
다중공선성 확인 방법 : VIF
| 의미 | VIF값 | 해석 |
| 아주 낮음 | 1이하 | 전혀 상관없음 |
| 주의 수준 | 5이상 | 다중공선성 의심 |
| 심각 | 10이상 | 다중공선성 매우 심함 변수 제거 고려 |
✅summary() 요약
| 용어 | 설명 |
| coef (회귀계수) | 해당 독립변수가 1 단위 증가할 때 종속변수가 얼마나 변하는지를 나타냄 |
| std err (표준오차) | 회귀계수의 추정값에 대한 불확실성(표준 편차), 작을수록 추정값의 신뢰도가 높음 (회귀계수 안정적) |
| t (t-검정 통계량) | 회귀계수가 0이 아닐 확률이 얼마나 높은지를 판단하는 값, t = coef / std err, 크면 클수록 해당 변수는 통계적으로 유의미할 가능성↑ |
| P>|t| (p-value) | 회귀계수가 우연히 나올 확률 (귀무가설: 계수=0) , p < 0.05이면 → 해당 변수는 유의미함 |
| [0.025, 0.975] (95% 신뢰구간) |
회귀계수가 이 범위 안에 있을 확률이 95%라는 뜻 |
✅ 실기시험 에서 확인할 것
| 문제유형 | 확인할 것 | ||
| 유의미한 변수 찾기 | pvalues < 0.05 | ||
| 회귀계수 찾기 | coef | ||
| 회귀계수 불확실성 평가 | std err, 신뢰구간 | ||
| 변수 영향력 해석 | coef의 부호와 크기 | coef < 0 | 해당 변수가 1 증가할 때 종속변수는 감소 |
| coef > 0 | 해당 변수가 증가하면 종속변수도 증가 |
'🍅빅데이터 분석기사 > 정리' 카테고리의 다른 글
| 시계열 데이터 함수 정리 (0) | 2025.06.02 |
|---|---|
| Numpy 함수 정리 (0) | 2025.05.31 |
| 통계분석 함수 정리 (0) | 2025.05.30 |
| Pandas 데이터 전처리 함수 (0) | 2025.05.30 |
| melt() (0) | 2025.05.29 |