🍅빅데이터 분석기사/정리

Pandas 데이터 전처리 함수

류딩이 2025. 5. 30. 02:44
범주 함수명 설명
파일 읽기 pd.read_csv() CSV파일 불러오기
결측치 처리 isnull(), fillna(), dropna() 결측치 탐지/ 대체/ 제거
조건 필터링 df.loc[ ], df.query() 조건으로 행 선택
정렬 sort_values(), sort_index() 값 또는 인덱스로 정렬
그룹별 연산 groupby() + agg() / mean() 그룹별 평균, 합계
열 변경 rename(), drop(), astype() 열 이름 변경, 열 삭제, 형 변환
데이터 통합 concat() 행방향 (위아래) 붙이기
데이터 통합 merge() 열방향 (옆으로) 붙이기
데이터 재구조화 pivot(), melt() wide <-> long 변환
동일 개수(분위수)로 구간 나누기 pd.qcut(df['col'], q=3, labels = ['group1', 'group2', 'group3']) 데이터를 동일 개수 구간(분위수)로 나눔
- 구간에 데이터 개수가 같음
등간격으로 구간 나누기
pd.cut(df['col'], bins=3, labels = ['청년', '중년', '노년']) 값을 등간격 구간(범주)로 나눔
- 구간의 너비가 같음