728x90
0. 데이터 분석에 없어서는 안될 라이브러리, Pandas!
데이터 분석에 입문했다면 꼭 듣게 될 라이브러리, 판다스!
파이썬으로 데이터를 분석한다면 꼭 알아야할 라이브러리 중 하나인 판다스 라이브러리는 도대체 무엇을 하는 데 쓰이는 라이브러리인걸까?
[참고 게시글]
데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개
1. Padas(판다스) 기본 1. 파이썬으로 표 형태의 데이터를 처리할 때 폭넓은 기능을 제공해주는 라이브러리 2. 간단한 개념 증명이나 빠르고 쉬운 데이터 처리에 간편히 판다스를 사용 3. 결과물을 H
nasena.tistory.com
1. Excel과 Pandas 비교
대표적인 데이터 툴인 엑셀과의 비교!
기능 | Excel | Pandas |
자동화, 프로그래밍 기능 | - 시각적인 사용자 인터페이스를 가진 데이터 툴 | - 다양한 라이브러리를 활용해 데이터를 불러오고, 변환하고, 분석할 수 있음. - 반복적이고, 복잡한 작업 자동화 가능 |
대용량 데이터 처리 | - 상대적으로 작은 크기의 데이터셋을 다루는 데 적합 | - 대용량 데이터 처리에 유용 - 메모리 내에서 데이터를 처리하거나, 큰 데이터셋을 작은 조각으로 나누어 처리하는 기능 제공 |
복잡한 데이터 처리 및 분석 | - 기본적인 수식과 함수를 이용한 데이터 처리 및 시각화 | - 데이터 분석 및 처리를 위한 다양한 도구와 라이브러리 활용 가능 - 데이터를 다양한 방식으로 조작하고 분석할 수 있음 - 복잡한 데이터 작업, 통계 분석, 머신러닝 모델 구축 등 가능 |
확장성과 유연성 | - 주로 특정 데이터 형식 파일(.xlsx, .csv 등)을 다루는 데에 제한되어 있음 | - 다양한 데이터 형식을 처리할 수 있는 라이브러리 지원 - 데이터베이스와 연동하여 작업할 수 있음 |
버전 관리 및 자동화 | - 사용자가 직접 수정하기 때문에 변경 사항을 추적하거나 문서화하기 어려울 수 있음 | - Python 코드는 버전 관리 시스템(Git 등)을 사용해 변경 내역을 관리하고, 코드 자체에 주석을 추가하거나 문서화할 수 있어 작업 히스토리 추적이 용이함 |
2. Pandas (판다스)란?
▶ Pandas 라이브러리
- Python에서 데이터를 조작하고, 쉽게 분석할 수 있도록 도와주는 라이브러리
데이터를 나누고, 바꾸고, 추가하고, 삭제하고 다양하게 손질할 수 있게 도와주는 라이브러리임
▶ Pandas 기능
- 대용량 데이터 처리 가능
대용량 데이터를 메모리에 로드하고, 다양한 연산을 빠르게 처리할 수 있음 - 데이터 조작 기능
데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음 - 데이터 시각화 기능 제공
Matplotlib, Seaborn 등등 - 데이터를 구조화하여 분석 가능
DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내 분석할 수 있음
▶ Pandas 구조
- 시리즈(Series) : 하나의 속성을 가진 데이터 집합
- 데이터 프레임(DataFrame) : 시리즈들의 모음, 표 형태
▶ Pandas 설치, 불러오기
!pip install pandas
# 설치가 안되면 오류메시지 확인 후 메시지에 나와있는 해결방법 따라해보기
# 설치가 안되면 !를 빼고 설치해보기(요즘엔 !빼고 설치가 가능한 경우도 있음)
# 그래도 안되면 pip3으로 설치해보기
# 그래도 안되면 uninstall 후 재설치
import pandas as pd
# 판다스 라이브러리를 불러올 건데, 앞으로는 간단히 pd라고 부를 예정
728x90
댓글