썸네일 데이터분석 시각화 | Matplotlib과 Seaborn | plot 함수 | linestyle 과 marker 종류 | Seaborn 내장 데이터셋 종류 | 그래프 자료 유형 0. 데이터분석 시각화 대표 라이브러리, Matplotlib과 Seaborn 앞서 Pandas로 데이터 분석을 어느 정도 마쳤다면, 이번에는 분석한 결과를 시각화해보자. 데이터를 시각화해주는 라이브러리는 대표적으로 Matplotlib과 Seaborn이 있다. 각 라이브러리의 활용법을 자세히 알아보고 싶은 분은 하단 링크 클릭! [참고 게시글] [AI기본과정/데이터분석 기초] - 데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스플롯 그리기 | 옵션 사용자화 방법(색 변경, 범례 설정, 선 스타일, 그리드, 타이틀 설정 등) 데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스 1. Ma..
썸네일 데이터분석 전처리 | 파이썬 pickle | 데이터 용량을 줄여주는 pickle 사용법 1. pickle ▶ pickle 이란? : python의 변수, 함수, 객체를 파일로 저장하고 불러올 수 있는 라이브러리 list, dictionary 등을 파일 그대로 저장하면 용량이 매우 커지는데 pickle을 사용하면 binary 형태로 저장되기 때문에 용량이 매우 작아짐 추가적으로 gzip을 이용해서 pickle로 저장된 데이터를 압출할 수 있음 pandas에서 사용할 때는 to_pickle( ) 및 read_pickle( ) 메소드 활용 머신러닝 모델 등을 저장하고 불러올 때도 활용 ▶ pickle 활용 예시 import pandas as pd df_ex_tips = pd.read_csv('temp/tips_data.csv') df_ex_tips.head() ① pickle 저장하기 : 데이터..
썸네일 데이터분석 전처리 | 데이터 집계 | 파이썬 group by | aggfunc 사용법 | 파이썬에서 Pivot Table 만드는 법 | 파이썬 정렬 | sort_values( ), sort_index( ) 1. groupby( ) ▶ groupby 함수 : 데이터프레임을 특정 기준에 따라 그룹화하고, 그룹 단위로 데이터를 분할(split), 적용(apply), 결합(combine) 하는 기능을 제공 그룹 생성: 기준 열(또는 열들)을 지정하여 데이터프레임을 그룹으로 나눔 그룹에 대한 연산 수행: 그룹 단위로 원하는 연산(평균, 합계, 개수 세기 등)을 수행함 결과 결합: 각 그룹의 연산 결과를 하나의 데이터프레임으로 결합해 새로운 데이터프레임을 생성함 : 복수의 열을 기준으로 그룹화하여 데이터프레임을 조작하는 경우, groupby() 함수에 복수의 열을 [리스트]로 전달하여 원하는 그룹화 기준을 지정하고, agg() 함수를 사용하여 여러 열에 대해 다양한 집계 함수를 적용할 수 있음 : 숫치형 데이터의 경..
썸네일 데이터분석 전처리 | 데이터 병합 | CONCAT( )과 MERGE( ) 함수 | axis 의미 | Pandas 데이터프레임 | 위, 아래로 합치기 | 좌, 우로 합치기 [참고 웹사이트] https://pandas.pydata.org/docs/user_guide/merging.html#merge-join-concatenate-and-compare Merge, join, concatenate and compare — pandas 2.2.0 documentation Merge, join, concatenate and compare pandas provides various methods for combining and comparing Series or DataFrame. The concat() function concatenates an arbitrary amount of Series or DataFrame objects along an axis while performi..
썸네일 데이터분석 전처리 | 데이터 선택 | iloc와 loc 사용법 | Pandas 컬럼 조건식 | 데이터프레임 컬럼 추가하기 | isin( ) 메소드 활용법 1. iloc와 loc ▶ iloc와 loc 차이 간단정리 - iloc는 정수 기반의 인덱스를 사용함 - loc는 레이블 기반의 인덱스를 사용함 1-1) iloc ▶ .iloc[행 번호, 열 번호] : 인덱스 번호로 선택하기 : 행 번호와 열 번호를 통해 특정 행과 열의 데이터를 선택할 수 이씀 df.iloc[0, 2] >> 인덱스 0행과 인덱스 2열의 데이터 값 선택 (파이썬은 0부터 세준다는 점을 주의할 것! 첫 번째 행, 세 번째 열 데이터 값이 추출될 것) ▶ .iloc 예시 import pandas as pd # 샘플 데이터프레임 생성 data = { 'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500] }..
썸네일 데이터분석 전처리 | 데이터 확인 | 데이터 타입 변경하기 | astype( ) | dtype | info( ), describe( ) 1. 데이터 확인 ▶ .head() : 괄호를 빈칸으로 두면 기본적으로 위에서부터 5개 행의 데이터만 불러옴 : 괄호 안에 적은 숫자만큼 데이터를 보여줌 df.head() data.head(3) ▶ .tail() : 괄호를 빈칸으로 두면 기본적으로 밑에서부터 5개 행의 데이터만 불러옴 : 괄호 안에 적은 숫자만큼 데이터를 보여줌 df.tail() data.tail(3) ▶ .info() : 데이터의 정보를 한 눈에 파악할 수 있게 해줌 : 인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입 확인 가능 : NULL값이 있는지 확인할 때 매우 유용함 df.info() ▶ .describe() : 데이터의 기초통계량 확인 : 개수, 평균, 표준편차, 사분위수, 중앙값 확인 가능 : 단, 숫자에 대한 기초통계량..
썸네일 데이터분석 전처리 | 파이썬(Pandas) 파일_텍스트 깨질 때 해결 방법 | 인코딩 | encoding = | UTF-8 Pandas 파일 불러오기 + 텍스트 깨졌을 때 해결방법 ▶ 파일이 깨지는 이유 Pandas에서 파일을 불러올 때 텍스트 데이터를 읽어오는 과정에서 파일의 인코딩 방식을 정확히 지정하지 않았기 때문 여기서 잠깐! 인코딩이란, 한글과 같은 ASCII 범위를 벗어난 문자를 표현하기 위한 변형 작업이라고 이해하면 됨 파일의 인코딩 방식을 왜 정확히 지정해야 하냐면, 인코딩 방식이 다양하기 때문 한글만 하더라도 utf-8 인코딩, euc-kr 인코딩, Microsoft 사의 cp949/ms949 인코딩 등 수많은 인코딩이 존재함 즉, 파일이 utf-8로 인코딩 되어 있는데 이 파일을 cp949 인코딩 방식으로 읽어오려고 하면 잘못된 Byte 변환을 하기 때문에 깨짐 현상이 일어나게 됨 ▶ 인코딩 예시 impor..
썸네일 데이터분석 전처리 | 데이터 불러오기, 저장하기 | read_csv / excel( ) | to_csv / excel | 인덱스 바꾸기 | 컬럼명 바꾸기 | 파이썬 1. 데이터 불러오기 ▶ 엑셀 / CSV 데이터 불러오기 pd.read_excel('파일경로/파일명.확장자') pd.read_csv('파일경로/파일명.확장자') ▶ 파일이 깨져서 불러와질 때 [데이터분석 과정/데이터 분석] - 데이터분석 전처리 | 파이썬(Pandas) 파일_텍스트 깨질 때 해결 방법 | 인코딩 | encoding = | UTF-8 데이터분석 전처리 | 파이썬(Pandas) 파일_텍스트 깨질 때 해결 방법 | 인코딩 | encoding = | UTF-8 Pandas 파일 불러오기 + 텍스트 깨졌을 때 해결방법 ▶ 파일이 깨지는 이유 Pandas에서 파일을 불러올 때 텍스트 데이터를 읽어오는 과정에서 파일의 인코딩 방식을 정확히 지정하지 않았기 때문 여 nasena.tistory.com 1..
썸네일 데이터분석 전처리 | pandas(판다스) 라이브러리가 뭘까? | Series와 DataFrame 0. 데이터 분석에 없어서는 안될 라이브러리, Pandas! 데이터 분석에 입문했다면 꼭 듣게 될 라이브러리, 판다스! 파이썬으로 데이터를 분석한다면 꼭 알아야할 라이브러리 중 하나인 판다스 라이브러리는 도대체 무엇을 하는 데 쓰이는 라이브러리인걸까? [참고 게시글] [AI기본과정/데이터분석 기초] - 데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법 | Numpy(넘파이), 딕셔너리 활용 데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개 1. Padas(판다스) 기본 1. 파이썬으로 표 형태의 데이터를 처리할 때 폭넓은 기능을 제..