1
함수명 설명  
pd.to_datetime 문자열 --> 날짜 변환  
pd.date_range(start, end=None, periods=None, freq='D') 날짜 인덱스 생성  
df.set_index('컬럼명', inplace=False) 일정 기간에 해당하는 날짜 인덱스를 생성할 때 사용  # 2023-01-01부터 10일간 날짜 생성
dates = pd.date_range('2023-01-01', periods=10, freq='D')
df.resample(' 빈도 ') 리샘플링(기간변경/집계)  
dt.year/ dt.month / dt.day 연도추출/ 월 추출 / 일 추출  
dt.weekday / dt.dayofweek 요일 추출(월 = 0 ~ 일 = 6)  
dt.hour / dt.minute/ dt.second 시 / 분 / 초 추출  
df['value'].rolling(window=value).mean() 이동평균 : 지정한 윈도우(window) 크기만큼 이동하며 집계 3개씩 묶어 이동하며 평균값을 계산
df['ma3'] = df['value'].rolling(window=3).mean()
df['value'].expanding().mean() 누적통계량 : 처음부터 현재까지 누적 집계  
df['value'].shift(1) 데이터를 지정한 만큼(칸) 이동(시차열 생성) 결과: 한 칸씩 아래로 이동, 맨 위는 NaN
df['value'].diff() 현재 값과 이전 값의 차이(변화량) 결과: (두번째-첫번째), (세번째-두번째), ... (첫번째는 NaN)

 

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

Numpy 함수 정리  (0) 2025.05.31
statsmodels 회귀 / 분산분석 함수 정리  (0) 2025.05.30
통계분석 함수 정리  (0) 2025.05.30
Pandas 데이터 전처리 함수  (0) 2025.05.30
melt()  (0) 2025.05.29
함수 설명
np.mean() 평균
np.median() 중앙값
np.std() 표준편차
np.var() 분산
np.where(condition, value_if_true, value_if_false) 조건에 따라 값 선택
np.percentile() 분위수 계산
np.isnan() NaN 여부 판단
np.ceil(), np.floor(), np.trunc() 올림, 내림, 버림
np.log1p 로그 스케일
np.abs 절댓값
df['col'] / 1 !=0 나누기 : 실수 나눗셈 결과가 0이 아닌지 확인
df['col'] // 1 !=0 몫 연산 : 1로 나눈 정수 몫이 0이 아닌지
df['col'] % 1 !=0 정수로 나눈 나머지를 구하는것 (정수인지 소수인지 확인)

 

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

시계열 데이터 함수 정리  (0) 2025.06.02
statsmodels 회귀 / 분산분석 함수 정리  (0) 2025.05.30
통계분석 함수 정리  (0) 2025.05.30
Pandas 데이터 전처리 함수  (0) 2025.05.30
melt()  (0) 2025.05.29
함수 설명
ols() 선형회귀 모델 생성
anova_lm() 분산분석표 생성
logit() 로지스틱 회귀
summary() 분석 결과 요약()

 

 

OLS기반 회귀분석 유형

분석종류 함수 설명
단순선형회귀 ols( 'y ~ x' ) 독립변수 1개
다중선형회귀 ols( 'y ~ x1 + x2 + ... ' ) 독립변수 여러개
유의미한 변수 찾기 model.pvalues < 0.05 p값 기반 필터링
다중공선성 확인 from statsmodels.stats.outliers_influence
import variance_inflation_factor
VIF값 

 

유의미한 독립변수 찾기

단계 설명
회귀 모델 만들기 ols(...).fit()
p-value 확인 medel.summary() / model.pvalues
유의미한 변수 카운트 sum(model.pvalues[1:] < 0.05 )

 

 

다중공선성 확인 방법 : VIF

의미 VIF값 해석
아주 낮음 1이하 전혀 상관없음
주의 수준 5이상 다중공선성 의심
심각 10이상 다중공선성 매우 심함 변수 제거 고려

 

 

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

시계열 데이터 함수 정리  (0) 2025.06.02
Numpy 함수 정리  (0) 2025.05.31
통계분석 함수 정리  (0) 2025.05.30
Pandas 데이터 전처리 함수  (0) 2025.05.30
melt()  (0) 2025.05.29
함수 분석 목적 검정 귀무가설(H0)
stats.shapiro() 정규성 검정 데이터가 정규 분포를 따르는지 확인 데이터는 정규분포를 따른다.
stats.levene() 등분산 검정 두 집단 이상에서 분산이 같은지 확인 모든 그룹의 분산은 같다.
stats.ttest_rel() 대응표본 t검정 같은 대상의 전후 비교 두 시점 평균차이는 0이다.
stats.ttest_ind() 독립표본 t검정 두 독립 집단 평균 비교 두 집단 평균은 같다.
stats.ttest_1samp() 단일표본 t검정 하나의 그룹 평균이 특정 값과 다른지 비교 모평균은 기준값과 같다.
df.corr() / stats.pearsonr() 상관계수 두 연속된 변수의 선형 관계 측정 상관계수 p=0(상관 없다)
ols() + anova_lm() 분산분석(ANOVA) 집단 간 평균 차이분석 (1개 이상 범주형 변수) 모든 그룹 평균이 같다.
stats.f_oneway() 일원분산분석 3그룹 이상의 독립 집단 평균 비교 모든 그룹 평균이 같다.
stats.chisquare 카이제곱 적합도 관측된 범주형 데이터와 기대값과 일치 확인 관측 비율은 기대비율과 같다
stats.chi2_contingency() 카이제곱 독립성 검정 범주형 변수 간 관련성 확인 두 변수는 서로 독립이다.
quantile(), np.percentile() 분위수 데이터의 특정 백분위 계산 요약통계 계산용

 

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

시계열 데이터 함수 정리  (0) 2025.06.02
Numpy 함수 정리  (0) 2025.05.31
statsmodels 회귀 / 분산분석 함수 정리  (0) 2025.05.30
Pandas 데이터 전처리 함수  (0) 2025.05.30
melt()  (0) 2025.05.29
범주 함수명 설명
파일 읽기 pd.read_csv() CSV파일 불러오기
결측치 처리 isnull(), fillna(), dropna() 결측치 탐지/ 대체/ 제거
조건 필터링 df.loc[ ], df.query() 조건으로 행 선택
정렬 sort_values(), sort_index() 값 또는 인덱스로 정렬
그룹별 연산 groupby() + agg() / mean() 그룹별 평균, 합계
열 변경 rename(), drop(), astype() 열 이름 변경, 열 삭제, 형 변환
데이터 통합 concat() 행방향 (위아래) 붙이기
데이터 통합 merge() 열방향 (옆으로) 붙이기
데이터 재구조화 pivot(), melt() wide <-> long 변환
동일 개수(분위수)로 구간 나누기 pd.qcut(df['col'], q=3, labels = ['group1', 'group2', 'group3']) 데이터를 동일 개수 구간(분위수)로 나눔
- 구간에 데이터 개수가 같음
등간격으로 구간 나누기
pd.cut(df['col'], bins=3, labels = ['청년', '중년', '노년']) 값을 등간격 구간(범주)로 나눔
- 구간의 너비가 같음

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

시계열 데이터 함수 정리  (0) 2025.06.02
Numpy 함수 정리  (0) 2025.05.31
statsmodels 회귀 / 분산분석 함수 정리  (0) 2025.05.30
통계분석 함수 정리  (0) 2025.05.30
melt()  (0) 2025.05.29

melt()

: 여러 개의 열(columns)으로 나뉜 데이터를 하나의 열로 세로로 녹여(long)하게 만드는 함수

 

예) 원본데이터 (wide 형식)

import pandas as pd

df = pd.DataFrame({
    'GroupA': [85, 92, 78],
    'GroupB': [79, 69, 84],
    'GroupC': [75, 68, 74]
})
print(df)

GroupA	GroupB	GroupC
85	79	75
92	69	68
78	84	74


#============================================================
# melt 사용
df_long = df.melt(value_vars=['GroupA', 'GroupB', 'GroupC'],
                  var_name='Group',
                  value_name='Score')
print(df_long)


Group	Score
GroupA	85
GroupA	92
GroupA	78
GroupB	79
GroupB	69
GroupB	84
GroupC	75
GroupC	68
GroupC	74

 

=> 열 이름이 값으로 바뀌고, 그에 해당한 값은 세로로 정렬

 

id_vars :  지정한 컬럼은 그대로 유지 (녹이지 않음)

value_vars :  컬럼을 세로로 녹임

var_name : 새로운 변수 열의 이름 (value_vars에서 녹인 컬럼들의 새로운 열 이름)

value_name : 값들이 들어갈 열의 이름

'빅데이터 분석기사 > 정리' 카테고리의 다른 글

시계열 데이터 함수 정리  (0) 2025.06.02
Numpy 함수 정리  (0) 2025.05.31
statsmodels 회귀 / 분산분석 함수 정리  (0) 2025.05.30
통계분석 함수 정리  (0) 2025.05.30
Pandas 데이터 전처리 함수  (0) 2025.05.30