빅데이터 분석기사/정리

statsmodels 회귀 / 분산분석 함수 정리

류딩이 2025. 5. 30. 03:29
함수 설명
ols() 선형회귀 모델 생성
anova_lm() 분산분석표 생성
logit() 로지스틱 회귀
summary() 분석 결과 요약()

 

 

OLS기반 회귀분석 유형

분석종류 함수 설명
단순선형회귀 ols( 'y ~ x' ) 독립변수 1개
다중선형회귀 ols( 'y ~ x1 + x2 + ... ' ) 독립변수 여러개
유의미한 변수 찾기 model.pvalues < 0.05 p값 기반 필터링
다중공선성 확인 from statsmodels.stats.outliers_influence
import variance_inflation_factor
VIF값 

 

유의미한 독립변수 찾기

단계 설명
회귀 모델 만들기 ols(...).fit()
p-value 확인 medel.summary() / model.pvalues
유의미한 변수 카운트 sum(model.pvalues[1:] < 0.05 )

 

 

다중공선성 확인 방법 : VIF

의미 VIF값 해석
아주 낮음 1이하 전혀 상관없음
주의 수준 5이상 다중공선성 의심
심각 10이상 다중공선성 매우 심함 변수 제거 고려