Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드
1. 데이터 타입(dtype) 확인하기
Pandas의 DataFrame에서 가장 중요한 원칙 중 하나는 "한 열(Column) 내의 모든 값은 동일한 데이터 타입이어야 한다"는 점입니다. 이를 확인하기 위해 df.dtypes 속성을 사용합니다.
import pandas as pd two_dimensional_list = [ ['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75] ] my_df = pd.DataFrame( two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'] ) print(my_df.dtypes)
name object
english_score int64
math_score int64
dtype: object
english_score int64
math_score int64
dtype: object
■ 주요 Pandas 데이터 타입 요약
| dtype | 설명 |
|---|---|
| int64 | 정수형 데이터 |
| float64 | 소수점이 있는 숫자 데이터 |
| object | 텍스트(문자열) 데이터 |
| bool | 참(True) 또는 거짓(False) 데이터 |
| datetime64 | 날짜 및 시간 데이터 |
| category | 범주형(카테고리) 데이터 |
2. 외부 데이터 읽어오기 (read_csv)
실제 데이터 분석 환경에서는 외부 파일(주로 .csv)을 읽어오는 과정이 필수입니다. pd.read_csv() 함수를 활용하여 쉽고 빠르게 데이터를 데이터프레임으로 변환할 수 있습니다.
import pandas as pd # 'iphone.csv' 파일을 읽어오며 0번째 컬럼을 인덱스로 지정 iphone_df = pd.read_csv('iphone.csv', index_col=0) # 만약 파일에 헤더(열 이름)가 없는 경우 아래와 같이 호출합니다. # iphone_df = pd.read_csv('iphone.csv', header=None) print(iphone_df) print(type(iphone_df))
💡 매개변수 설명
- index_col=0: 파일의 첫 번째 열을 데이터프레임의 행 인덱스로 사용하겠다는 의미입니다.
- header=None: 파일의 첫 줄이 데이터일 뿐, 열 이름이 아닐 경우 사용합니다. 이 경우 컬럼명은 자동으로 숫자로 지정됩니다.
데이터를 성공적으로 읽어왔다면, 다음 단계는 특정 행과 열을 추출하는 인덱싱 기법을 학습할 차례입니다.
'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글
| 데이터 클리닝(완결성) (0) | 2024.06.04 |
|---|---|
| 데이터 정제 (0) | 2024.06.04 |
| Pandas 완전 정복: 데이터 분석의 시작과 DataFrame 생성법 (0) | 2024.06.03 |
| 5. numpy 기본 통계 (0) | 2024.06.03 |
| 4. numpy 불린 연산 (1) | 2024.06.03 |