Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드

1. 데이터 타입(dtype) 확인하기

Pandas의 DataFrame에서 가장 중요한 원칙 중 하나는 "한 열(Column) 내의 모든 값은 동일한 데이터 타입이어야 한다"는 점입니다. 이를 확인하기 위해 df.dtypes 속성을 사용합니다.

import pandas as pd two_dimensional_list = [ ['dongwook', 50, 86], ['sineui', 89, 31], ['ikjoong', 68, 91], ['yoonsoo', 88, 75] ] my_df = pd.DataFrame( two_dimensional_list, columns=['name', 'english_score', 'math_score'], index=['a', 'b', 'c', 'd'] ) print(my_df.dtypes)

name object
english_score int64
math_score int64
dtype: object

■ 주요 Pandas 데이터 타입 요약

dtype	설명
int64	정수형 데이터
float64	소수점이 있는 숫자 데이터
object	텍스트(문자열) 데이터
bool	참(True) 또는 거짓(False) 데이터
datetime64	날짜 및 시간 데이터
category	범주형(카테고리) 데이터

2. 외부 데이터 읽어오기 (read_csv)

실제 데이터 분석 환경에서는 외부 파일(주로 .csv)을 읽어오는 과정이 필수입니다. pd.read_csv() 함수를 활용하여 쉽고 빠르게 데이터를 데이터프레임으로 변환할 수 있습니다.

import pandas as pd # 'iphone.csv' 파일을 읽어오며 0번째 컬럼을 인덱스로 지정 iphone_df = pd.read_csv('iphone.csv', index_col=0) # 만약 파일에 헤더(열 이름)가 없는 경우 아래와 같이 호출합니다. # iphone_df = pd.read_csv('iphone.csv', header=None) print(iphone_df) print(type(iphone_df))

💡 매개변수 설명

index_col=0: 파일의 첫 번째 열을 데이터프레임의 행 인덱스로 사용하겠다는 의미입니다.
header=None: 파일의 첫 줄이 데이터일 뿐, 열 이름이 아닐 경우 사용합니다. 이 경우 컬럼명은 자동으로 숫자로 지정됩니다.

데이터를 성공적으로 읽어왔다면, 다음 단계는 특정 행과 열을 추출하는 인덱싱 기법을 학습할 차례입니다.

저작자표시 (새창열림)

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

데이터 클리닝(완결성) (0)	2024.06.04
데이터 정제 (0)	2024.06.04
Pandas 완전 정복: 데이터 분석의 시작과 DataFrame 생성법 (0)	2024.06.03
5. numpy 기본 통계 (0)	2024.06.03
4. numpy 불린 연산 (1)	2024.06.03

류딩이

Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드

Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드

1. 데이터 타입(dtype) 확인하기

■ 주요 Pandas 데이터 타입 요약

2. 외부 데이터 읽어오기 (read_csv)

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

티스토리툴바

Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드

Pandas 기초: 데이터 타입 확인 및 외부 CSV 데이터 로드

1. 데이터 타입(dtype) 확인하기

■ 주요 Pandas 데이터 타입 요약

2. 외부 데이터 읽어오기 (read_csv)

'Data & AI Intelligence > ▶Preprocessing & EDA' 카테고리의 다른 글

관련글

티스토리툴바