데이터분석 전처리 | 데이터 확인 | 데이터 타입 변경하기 | astype( ) | dtype | info( ), describe( ) 1. 데이터 확인 ▶ .head() : 괄호를 빈칸으로 두면 기본적으로 위에서부터 5개 행의 데이터만 불러옴 : 괄호 안에 적은 숫자만큼 데이터를 보여줌 df.head() data.head(3) ▶ .tail() : 괄호를 빈칸으로 두면 기본적으로 밑에서부터 5개 행의 데이터만 불러옴 : 괄호 안에 적은 숫자만큼 데이터를 보여줌 df.tail() data.tail(3) ▶ .info() : 데이터의 정보를 한 눈에 파악할 수 있게 해줌 : 인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입 확인 가능 : NULL값이 있는지 확인할 때 매우 유용함 df.info() ▶ .describe() : 데이터의 기초통계량 확인 : 개수, 평균, 표준편차, 사분위수, 중앙값 확인 가능 : 단, 숫자에 대한 기초통계량.. 데이터분석 기초 | 데이터 차원, 길이 확인(.shape / .size) | 데이터타입 확인(.dtypes) | 자동/수동으로 데이터타입 변경(.covert_dtypes / .astype) | 기술통계 정보확인(.describe) | include = / exclude = 사용법 1. 데이터 불러오기 1-1) 라이브러리 설치 후 데이터셋 불러오기 ▶ 라이브러리 설치하기 import pandas as pd import seaborn as sns import numpy as np ▶ 라이브러리에서 데이터셋 불러오기 : 데이터셋 penguins >> 펭귄의 종류와 각 종류의 펭귄이 서식하는 섬, 개별 펭귄의 성별, 부리의 길이와 깊이, 지느러미 길이, 몸무게 등 신체 사이즈 관련 값을 담고 있음 df = sns.load_dataset('penguins') # 344개의 로우와 7개의 컬럼으로 구성 df 1-2) 일부 데이터만 출력해보기 ▶ df.head() : () 안의 숫자만큼 앞에서부터 데이터 출력 : () 안에 아무 숫자도 적지 않으면 앞에서부터 5개의 데이터가 출력됨 ▶ df... 이전 1 다음