데이터분석 전처리 | pandas(판다스) 라이브러리가 뭘까? | Series와 DataFrame

    728x90

     

    0. 데이터 분석에 없어서는 안될 라이브러리, Pandas!

    데이터 분석에 입문했다면 꼭 듣게 될 라이브러리, 판다스!

    파이썬으로 데이터를 분석한다면 꼭 알아야할 라이브러리 중 하나판다스 라이브러리도대체 무엇을 하는 데 쓰이는 라이브러리인걸까?

     

    [참고 게시글]

    [AI기본과정/데이터분석 기초] - 데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법 | Numpy(넘파이), 딕셔너리 활용

     

    데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개

    1. Padas(판다스) 기본 1. 파이썬으로 표 형태의 데이터를 처리할 때 폭넓은 기능을 제공해주는 라이브러리 2. 간단한 개념 증명이나 빠르고 쉬운 데이터 처리에 간편히 판다스를 사용 3. 결과물을 H

    nasena.tistory.com


    1. Excel과 Pandas 비교

    대표적인 데이터 툴인 엑셀과의 비교!

    기능 Excel Pandas
    자동화, 프로그래밍 기능 - 시각적인 사용자 인터페이스를 가진 데이터 툴 - 다양한 라이브러리를 활용해 데이터를 불러오고, 변환하고, 분석할 수 있음.
    - 반복적이고, 복잡한 작업 자동화 가능
    대용량 데이터 처리 - 상대적으로 작은 크기의 데이터셋을 다루는 데 적합 - 대용량 데이터 처리에 유용
    - 메모리 내에서 데이터를 처리하거나, 큰 데이터셋을 작은 조각으로 나누어 처리하는 기능 제공
    복잡한 데이터 처리 및 분석 - 기본적인 수식과 함수를 이용한 데이터 처리 및 시각화 - 데이터 분석 및 처리를 위한 다양한 도구와 라이브러리 활용 가능
    - 데이터를 다양한 방식으로 조작하고 분석할 수 있음
    - 복잡한 데이터 작업, 통계 분석, 머신러닝 모델 구축 등 가능
    확장성과 유연성 - 주로 특정 데이터 형식 파일(.xlsx, .csv 등)을 다루는 데에 제한되어 있음 - 다양한 데이터 형식을 처리할 수 있는 라이브러리 지원
    - 데이터베이스와 연동하여 작업할 수 있음
    버전 관리 및 자동화 - 사용자가 직접 수정하기 때문에 변경 사항을 추적하거나 문서화하기 어려울 수 있음 - Python 코드는 버전 관리 시스템(Git 등)을 사용해 변경 내역을 관리하고, 코드 자체에 주석을 추가하거나 문서화할 수 있어 작업 히스토리 추적이 용이함

    2.  Pandas (판다스)란?

    ▶ Pandas 라이브러리

    • Python에서 데이터를 조작하고, 쉽게 분석할 수 있도록 도와주는 라이브러리
      데이터를 나누고, 바꾸고, 추가하고, 삭제하고 다양하게 손질할 수 있게 도와주는 라이브러리임

    ▶ Pandas 기능

    • 대용량 데이터 처리 가능
      대용량 데이터를 메모리에 로드하고, 다양한 연산을 빠르게 처리할 수 있음
    • 데이터 조작 기능
      데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음
    • 데이터 시각화 기능 제공
      Matplotlib, Seaborn 등등
    • 데이터를 구조화하여 분석 가능
      DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내 분석할 수 있음

    ▶ Pandas 구조

     

    - 시리즈(Series) : 하나의 속성을 가진 데이터 집합

    - 데이터 프레임(DataFrame) : 시리즈들의 모음, 표 형태

     

    ▶ Pandas 설치, 불러오기

    !pip install pandas  
    # 설치가 안되면 오류메시지 확인 후 메시지에 나와있는 해결방법 따라해보기
    # 설치가 안되면 !를 빼고 설치해보기(요즘엔 !빼고 설치가 가능한 경우도 있음)
    # 그래도 안되면 pip3으로 설치해보기
    # 그래도 안되면 uninstall 후 재설치
    import pandas as pd
    # 판다스 라이브러리를 불러올 건데, 앞으로는 간단히 pd라고 부를 예정

     

    728x90

    댓글