함수명 | 설명 | |
pd.to_datetime | 문자열 --> 날짜 변환 | |
pd.date_range(start, end=None, periods=None, freq='D') | 날짜 인덱스 생성 | |
df.set_index('컬럼명', inplace=False) | 일정 기간에 해당하는 날짜 인덱스를 생성할 때 사용 | # 2023-01-01부터 10일간 날짜 생성 dates = pd.date_range('2023-01-01', periods=10, freq='D') |
df.resample(' 빈도 ') | 리샘플링(기간변경/집계) | |
dt.year/ dt.month / dt.day | 연도추출/ 월 추출 / 일 추출 | |
dt.weekday / dt.dayofweek | 요일 추출(월 = 0 ~ 일 = 6) | |
dt.hour / dt.minute/ dt.second | 시 / 분 / 초 추출 | |
df['value'].rolling(window=value).mean() | 이동평균 : 지정한 윈도우(window) 크기만큼 이동하며 집계 | 3개씩 묶어 이동하며 평균값을 계산 df['ma3'] = df['value'].rolling(window=3).mean() |
df['value'].expanding().mean() | 누적통계량 : 처음부터 현재까지 누적 집계 | |
df['value'].shift(1) | 데이터를 지정한 만큼(칸) 이동(시차열 생성) | 결과: 한 칸씩 아래로 이동, 맨 위는 NaN |
df['value'].diff() | 현재 값과 이전 값의 차이(변화량) | 결과: (두번째-첫번째), (세번째-두번째), ... (첫번째는 NaN) |
'빅데이터 분석기사 > 정리' 카테고리의 다른 글
Numpy 함수 정리 (0) | 2025.05.31 |
---|---|
statsmodels 회귀 / 분산분석 함수 정리 (0) | 2025.05.30 |
통계분석 함수 정리 (0) | 2025.05.30 |
Pandas 데이터 전처리 함수 (0) | 2025.05.30 |
melt() (0) | 2025.05.29 |