데이터분석 전처리 | 데이터 확인 | 데이터 타입 변경하기 | astype( ) | dtype | info( ), describe( )

    728x90

     

    1. 데이터 확인

     

    ▶ .head()

    : 괄호를 빈칸으로 두면 기본적으로 위에서부터 5개 행의 데이터만 불러옴

    : 괄호 안에 적은 숫자만큼 데이터를 보여줌

    df.head()
    data.head(3)

     

    ▶ .tail()

    : 괄호를 빈칸으로 두면 기본적으로 밑에서부터 5개 행의 데이터만 불러옴

    : 괄호 안에 적은 숫자만큼 데이터를 보여줌

    df.tail()
    data.tail(3)

     

    ▶ .info()

    : 데이터의 정보를 한 눈에 파악할 수 있게 해줌

    : 인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입 확인 가능

    : NULL값이 있는지 확인할 때 매우 유용함

    df.info()

     

    ▶ .describe()

    : 데이터의 기초통계량 확인

    : 개수, 평균, 표준편차, 사분위수, 중앙값 확인 가능

    : 단, 숫자에 대한 기초통계량만 확인이 가능

    만약 숫자 이외 데이터에 대한 값을 확인해보고 싶으면 괄호 안 include = 'all' 이라고 적으면 됨

    그러면 해당 컬럼의 전체 데이터 개수해당 컬럼의 데이터 중 가장 많은 부분을 차지하고 있는 값은 무엇이고 몇 개인지 정도는 알 수 있게됨

    df.describe()

     

    ▶ 데이터 정보를 불러온 뒤 확인할 점

    • 데이터에 결측치(null값)가 있는지 확인
    • 데이터 타입이 해당 컬럼값과 비교해서 알맞은지 확인 (ex. 날짜 데이터인데 문자형으로 되어있는 경우)
    • 데이터 기초통계량도 목적에 따라 확인

    2. 데이터 타입 변경

     

    ▶ astype()

    : Pandas 데이터프레임의 컬럼 데이터 타입변경하는 데 사용됨

    DataFrame['column_name'] = DataFrame['column_name'].astype(new_dtype)

    : new_dtype 부분에 바꾸려고 하는 새로운 데이터 타입을 적어주면 됨

    예를 들어, .astype(int) 는 컬럼의 데이터 타입을 int로 바꾸려는 것

     

    ▶ 데이터 타입의 종류

    데이터 타입 설명 예시
    int64, int32 정수형 데이터 (64비트 또는 32비트) 1, 100, -10, 28
    float64, float32 부동 소수점 수 (64비트 또는 32비트) 3.14, -0.01
    object 문자열 데이터 (일반적으로 문자열) 'Hello', 'World'
    bool 참 / 거짓 데이터 True, False
    datetime64 날짜와 시간 데이터 '2027-01-01 07:00:00'
    timedelta64 시간 간격 (두 날짜 또는 시간 사이의 차이) '3 days', '5 hours'
    category 카테고리형 데이터(제한된 고유 값으로 구성) 'Red', 'Blue', 'Green'

     

    ▶ 데이터프레임.dtypes

    : 데이터프레임의 데이터 타입을 확인해볼 수 있음

    df.dtypes
    
    print(df.dtypes)
    728x90

    댓글