데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법

728x90

1. Padas(판다스) 기본

1. 파이썬으로 표 형태의 데이터를 처리할 때 폭넓은 기능을 제공해주는 라이브러리
2. 간단한 개념 증명이나 빠르고 쉬운 데이터 처리에 간편히 판다스를 사용

3. 결과물을 HTML, Excel, DB 파일 등 원하는 형식으로 출력 가능

2. Pandas 설치

pip install pandas

import pandas as pd
# 에러 안 나면 정상적으로 설치 된 것

▶ Pandas 버전 확인

print(pd.__version__)

3. Pandas 활용 기본

▶ 판다스 사용이유
1. 파이썬의 데이터 조작 기능을 강화
2. 대표적 데이터 관련 라이브러리
3. 데이터 프레임 조작에 특화

▶ 데이터 구조_시리즈와 데이터프레임의 개념

4. 시리즈 생성 방법과 특징

▶ 시리즈 생성하기

ser = pd.Series([1,3,5,7,9])
ser

* 시리즈 .index, .values

: 인덱스 값의 시작은 0 , 총 길이를 N이라고 했을 때 N-1까지의 숫자

ser.index

ser.values

* 시리즈의 이름과 값 확인하기

series.name

series.values

* .tolist( ) : 시리즈를 리스트로 만들 때 사용

series_tolist = series.tolist() 
type(series_tolist)

▶ 넘파이 배열을 활용해 시리즈 생성하기

* Series( )

: 함수의 매개변수 값이 저장해둔 변수를 지정하여 시리즈를 생성함

import numpy as np

data = np.random.randint(0,10,5)                # randint(시작범위, 끝범위)
index = ['a','b','c','d','e']
series = pd.Series(data = data,                 
                   index = index,
                   name = 'series_from_ndarray')
# Series() 함수의 매개변수 값이 저장해둔 변수를 지정하여 시리즈를 생성

print(series)

▶ 딕셔너리 활용해 시리즈 생성하기

data = {'서울' : 70000, '부산' : 52000, '대전' : 35000, '광주' : 45000, '제주도' : 28000}
series = pd.Series(data = data, 
                   name = 'series_from_dict')
print(series)

* 위 data 값에 없는 '울릉도'를 넣었을 때 출력되는 값

city = ['광주', '대전', '부산', '서울', '울릉도']
series = pd.Series(data = data,
                   index = city,
                   name = 'series_from_dict')
print(series)

5. 데이터프레임 생성 방법과 특징

data = {'도시' : ['서울','서울','서울','부산','부산','부산'],
        '연도' : [2020, 2019, 2018, 2020, 2019, 2018],
        '인구수': [15865, 15964, 16034, 4342, 4380, 4416]}

frame = pd.DataFrame(data)
frame

▶ 컬럼 순서 지정해서 데이터프레임 설정하기

: 데이터프레임 생성 시 매개변수 columns에 컬럼 순서 지정

frame = pd.DataFrame(data, columns = ['연도', '도시', '인구수'])  
frame

* 위 frame 값에 없는 '변화율'을 넣었을 때 출력되는 값

frame = pd.DataFrame(data, columns = ['연도','도시','인구수','변화율'])
frame

▶ 여러 개의 시리즈를 결합하여 데이터프레임 생성하기

1. 시리즈가 담겨 있는 딕셔너리 형태의 데이터프레임
2. 넘파이 배열로 시리즈를 여러 개 생성한 뒤 데이터프레임을 생성
3. 시리즈의 길이와 인텍스의 길이를 모두 동일하게 설정

data = {'컬럼1' : pd.Series(data = np.random.randint(10,100,5),
                           index = ['가','나','다','라','마']),
        '컬럼2' : pd.Series(data = np.random.randint(10,100,5),
                           index = ['가','나','다','라','마']),
        '컬럼3' : pd.Series(data = np.random.randint(10,100,5),
                           index = ['가','나','다','라','마'])}

frame = pd.DataFrame(data = data)
frame

* .values로 값만 출력해보기

frame.values

728x90

저작자표시 비영리 변경금지 (새창열림)

'AI기본과정 > 데이터분석 기초' 카테고리의 다른 글

데이터분석 기초 \| .loc 사용법 \| .iloc 사용법 \| 문자형 데이터 인덱싱 \| 문자형 인덱스 \| 위치 기반 인덱싱 \| set_index / reset_index (0)	2023.06.13
데이터분석 기초 \| 열 호출 \| 새로운 열 생성(.assign) \| 열 삭제 (drop / inplace = True) \| 동일한 데이터 타입 열 출력(select_dtypes) \| 열 이름, 열 순서 변경 \| 열 <> 인덱스 자리 바꿈 (transpose / .T) (0)	2023.06.12
데이터분석 기초 \| 데이터 차원, 길이 확인(.shape / .size) \| 데이터타입 확인(.dtypes) \| 자동/수동으로 데이터타입 변경(.covert_dtypes / .astype) \| 기술통계 정보확인(.describe) \| include = / exclude = 사용법 (1)	2023.06.09
데이터분석 기초 \| 데이터 로드(pd.read_) \| 헤더 없는 데이터 로드(header = None) \| 일부 행 건너뛰기 skiprows() \| 결측값 데이터 로드 \| 인코딩 에러 해결 \| 출력 가능 데이터 수 지정 pd.set_option() \| 데이.. (0)	2023.06.08
데이터분석 기초 \| Numpy 넘파이 설치 \| Numpy 데이터 타입(.dtype) 종류 정리, 데이터 타입 변환(.astype) \| Numpy 난수(.rand / .randn / randint) 생성 \| Numpy 함수(percentil, cumsum, cumprod 등) \| Numpy 집합 관련 함수 (0)	2023.06.05

안나세나 코딩 학습일지

데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법 | Numpy(넘파이), 딕셔너리 활용

1. Padas(판다스) 기본

2. Pandas 설치

3. Pandas 활용 기본

4. 시리즈 생성 방법과 특징

5. 데이터프레임 생성 방법과 특징

'AI기본과정 > 데이터분석 기초' 카테고리의 다른 글

댓글

티스토리툴바

데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법 | Numpy(넘파이), 딕셔너리 활용

1. Padas(판다스) 기본

2. Pandas 설치

3. Pandas 활용 기본

4. 시리즈 생성 방법과 특징

5. 데이터프레임 생성 방법과 특징

'AI기본과정 > 데이터분석 기초' 카테고리의 다른 글

관련글

댓글

티스토리툴바