빅데이터 분석기사/정리
statsmodels 회귀 / 분산분석 함수 정리
류딩이
2025. 5. 30. 03:29
함수 | 설명 |
ols() | 선형회귀 모델 생성 |
anova_lm() | 분산분석표 생성 |
logit() | 로지스틱 회귀 |
summary() | 분석 결과 요약() |
OLS기반 회귀분석 유형
분석종류 | 함수 | 설명 |
단순선형회귀 | ols( 'y ~ x' ) | 독립변수 1개 |
다중선형회귀 | ols( 'y ~ x1 + x2 + ... ' ) | 독립변수 여러개 |
유의미한 변수 찾기 | model.pvalues < 0.05 | p값 기반 필터링 |
다중공선성 확인 | from statsmodels.stats.outliers_influence import variance_inflation_factor |
VIF값 |
유의미한 독립변수 찾기
단계 | 설명 |
회귀 모델 만들기 | ols(...).fit() |
p-value 확인 | medel.summary() / model.pvalues |
유의미한 변수 카운트 | sum(model.pvalues[1:] < 0.05 ) |
다중공선성 확인 방법 : VIF
의미 | VIF값 | 해석 |
아주 낮음 | 1이하 | 전혀 상관없음 |
주의 수준 | 5이상 | 다중공선성 의심 |
심각 | 10이상 | 다중공선성 매우 심함 변수 제거 고려 |