데이터분석 과정/데이터 분석

데이터분석 전처리 | 데이터 확인 | 데이터 타입 변경하기 | astype( ) | dtype | info( ), describe( )

ANNASENA 2024. 2. 3. 17:25
728x90

 

1. 데이터 확인

 

▶ .head()

: 괄호를 빈칸으로 두면 기본적으로 위에서부터 5개 행의 데이터만 불러옴

: 괄호 안에 적은 숫자만큼 데이터를 보여줌

df.head()
data.head(3)

 

▶ .tail()

: 괄호를 빈칸으로 두면 기본적으로 밑에서부터 5개 행의 데이터만 불러옴

: 괄호 안에 적은 숫자만큼 데이터를 보여줌

df.tail()
data.tail(3)

 

▶ .info()

: 데이터의 정보를 한 눈에 파악할 수 있게 해줌

: 인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입 확인 가능

: NULL값이 있는지 확인할 때 매우 유용함

df.info()

 

▶ .describe()

: 데이터의 기초통계량 확인

: 개수, 평균, 표준편차, 사분위수, 중앙값 확인 가능

: 단, 숫자에 대한 기초통계량만 확인이 가능

만약 숫자 이외 데이터에 대한 값을 확인해보고 싶으면 괄호 안 include = 'all' 이라고 적으면 됨

그러면 해당 컬럼의 전체 데이터 개수해당 컬럼의 데이터 중 가장 많은 부분을 차지하고 있는 값은 무엇이고 몇 개인지 정도는 알 수 있게됨

df.describe()

 

▶ 데이터 정보를 불러온 뒤 확인할 점

  • 데이터에 결측치(null값)가 있는지 확인
  • 데이터 타입이 해당 컬럼값과 비교해서 알맞은지 확인 (ex. 날짜 데이터인데 문자형으로 되어있는 경우)
  • 데이터 기초통계량도 목적에 따라 확인

2. 데이터 타입 변경

 

▶ astype()

: Pandas 데이터프레임의 컬럼 데이터 타입변경하는 데 사용됨

DataFrame['column_name'] = DataFrame['column_name'].astype(new_dtype)

: new_dtype 부분에 바꾸려고 하는 새로운 데이터 타입을 적어주면 됨

예를 들어, .astype(int) 는 컬럼의 데이터 타입을 int로 바꾸려는 것

 

▶ 데이터 타입의 종류

데이터 타입 설명 예시
int64, int32 정수형 데이터 (64비트 또는 32비트) 1, 100, -10, 28
float64, float32 부동 소수점 수 (64비트 또는 32비트) 3.14, -0.01
object 문자열 데이터 (일반적으로 문자열) 'Hello', 'World'
bool 참 / 거짓 데이터 True, False
datetime64 날짜와 시간 데이터 '2027-01-01 07:00:00'
timedelta64 시간 간격 (두 날짜 또는 시간 사이의 차이) '3 days', '5 hours'
category 카테고리형 데이터(제한된 고유 값으로 구성) 'Red', 'Blue', 'Green'

 

▶ 데이터프레임.dtypes

: 데이터프레임의 데이터 타입을 확인해볼 수 있음

df.dtypes

print(df.dtypes)
728x90