728x90
1. 데이터 확인
▶ .head()
: 괄호를 빈칸으로 두면 기본적으로 위에서부터 5개 행의 데이터만 불러옴
: 괄호 안에 적은 숫자만큼 데이터를 보여줌
df.head()
data.head(3)
▶ .tail()
: 괄호를 빈칸으로 두면 기본적으로 밑에서부터 5개 행의 데이터만 불러옴
: 괄호 안에 적은 숫자만큼 데이터를 보여줌
df.tail()
data.tail(3)
▶ .info()
: 데이터의 정보를 한 눈에 파악할 수 있게 해줌
: 인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입 확인 가능
: NULL값이 있는지 확인할 때 매우 유용함
df.info()
▶ .describe()
: 데이터의 기초통계량 확인
: 개수, 평균, 표준편차, 사분위수, 중앙값 확인 가능
: 단, 숫자에 대한 기초통계량만 확인이 가능함
만약 숫자 이외 데이터에 대한 값을 확인해보고 싶으면 괄호 안에 include = 'all' 이라고 적으면 됨
그러면 해당 컬럼의 전체 데이터 개수나 해당 컬럼의 데이터 중 가장 많은 부분을 차지하고 있는 값은 무엇이고 몇 개인지 정도는 알 수 있게됨
df.describe()
▶ 데이터 정보를 불러온 뒤 확인할 점
- 데이터에 결측치(null값)가 있는지 확인
- 데이터 타입이 해당 컬럼값과 비교해서 알맞은지 확인 (ex. 날짜 데이터인데 문자형으로 되어있는 경우)
- 데이터 기초통계량도 목적에 따라 확인
2. 데이터 타입 변경
▶ astype()
: Pandas 데이터프레임의 컬럼 데이터 타입을 변경하는 데 사용됨
DataFrame['column_name'] = DataFrame['column_name'].astype(new_dtype)
: new_dtype 부분에 바꾸려고 하는 새로운 데이터 타입을 적어주면 됨
예를 들어, .astype(int) 는 컬럼의 데이터 타입을 int로 바꾸려는 것
▶ 데이터 타입의 종류
데이터 타입 | 설명 | 예시 |
int64, int32 | 정수형 데이터 (64비트 또는 32비트) | 1, 100, -10, 28 |
float64, float32 | 부동 소수점 수 (64비트 또는 32비트) | 3.14, -0.01 |
object | 문자열 데이터 (일반적으로 문자열) | 'Hello', 'World' |
bool | 참 / 거짓 데이터 | True, False |
datetime64 | 날짜와 시간 데이터 | '2027-01-01 07:00:00' |
timedelta64 | 시간 간격 (두 날짜 또는 시간 사이의 차이) | '3 days', '5 hours' |
category | 카테고리형 데이터(제한된 고유 값으로 구성) | 'Red', 'Blue', 'Green' |
▶ 데이터프레임.dtypes
: 데이터프레임의 데이터 타입을 확인해볼 수 있음
df.dtypes
print(df.dtypes)
728x90
댓글