statsmodels 회귀 / 분산분석 함수 정리

빅데이터 분석기사/정리

statsmodels 회귀 / 분산분석 함수 정리

류딩이 2025. 5. 30. 03:29

함수	설명
ols()	선형회귀 모델 생성
anova_lm()	분산분석표 생성
logit()	로지스틱 회귀
summary()	분석 결과 요약()

OLS기반 회귀분석 유형

분석종류	함수	설명
단순선형회귀	ols( 'y ~ x' )	독립변수 1개
다중선형회귀	ols( 'y ~ x1 + x2 + ... ' )	독립변수 여러개
유의미한 변수 찾기	model.pvalues < 0.05	p값 기반 필터링
다중공선성 확인	from statsmodels.stats.outliers_influence import variance_inflation_factor	VIF값

유의미한 독립변수 찾기

단계	설명
회귀 모델 만들기	ols(...).fit()
p-value 확인	medel.summary() / model.pvalues
유의미한 변수 카운트	sum(model.pvalues[1:] < 0.05 )

다중공선성 확인 방법 : VIF

의미	VIF값	해석
아주 낮음	1이하	전혀 상관없음
주의 수준	5이상	다중공선성 의심
심각	10이상	다중공선성 매우 심함 변수 제거 고려

✅summary() 요약

용어	설명
coef (회귀계수)	해당 독립변수가 1 단위 증가할 때 종속변수가 얼마나 변하는지를 나타냄
std err (표준오차)	회귀계수의 추정값에 대한 불확실성(표준 편차), 작을수록 추정값의 신뢰도가 높음 (회귀계수 안정적)
t (t-검정 통계량)	회귀계수가 0이 아닐 확률이 얼마나 높은지를 판단하는 값, t = coef / std err, 크면 클수록 해당 변수는 통계적으로 유의미할 가능성↑
P>\|t\| (p-value)	회귀계수가 우연히 나올 확률 (귀무가설: 계수=0) , p < 0.05이면 → 해당 변수는 유의미함
[0.025, 0.975] (95% 신뢰구간)	회귀계수가 이 범위 안에 있을 확률이 95%라는 뜻

✅ 실기시험 에서 확인할 것

문제유형	확인할 것
유의미한 변수 찾기	pvalues < 0.05
회귀계수 찾기	coef
회귀계수 불확실성 평가	std err, 신뢰구간
변수 영향력 해석	coef의 부호와 크기	coef < 0	해당 변수가 1 증가할 때 종속변수는 감소
변수 영향력 해석	coef의 부호와 크기	coef > 0	해당 변수가 증가하면 종속변수도 증가

저작자표시 비영리 변경금지 (새창열림)