썸네일 데이터 분석 기초 | Seaborn 데이터 시각화 | 라인 그래프, 히스토그램, 막대 그래프, 산점도, 박스플롯 그리기 | 1. Seaborn ▶ Seaborn(시본) 라이브러리 : 파이썬의 대표적인 시각화 도구 → matplotlib, seaborn : 매우 간결하고 직관적이나 세부적인 변경에 제한이 있음 : 정교하게 조절할 때는 matplotlib을 함께 사용 : 통계 관련 데이터를 시각화 할 수 있는 고차원 인터페이스를 제공 ▶ 라이브러리 설치 및 가져오기 import numpy as np import pandas as pd import seaborn as sns import matplotlib import matplotlib.pyplot as plt ▶ Seaborn의 그래프 스타일(테마) 정하기 sns.set_style('whitegrid') ▶ flight 데이터셋 불러오기 flights = sns.load_dat..
썸네일 데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스플롯 그리기 | 옵션 사용자화 방법(색 변경, 범례 설정, 선 스타일, 그리드, 타이틀 설정 등) 1. Matplotlib 데이터 시각화 ▶ Matplotlib 라이브러리 : 저수준의 그래픽용 라이브러리 ▶ 참고 사이트 https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html matplotlib.pyplot.subplots — Matplotlib 3.7.1 documentation ax can be either a single Axes object, or an array of Axes objects if more than one subplot was created. The dimensions of the resulting array can be controlled with the squeeze keyword, see above..
썸네일 데이터 분석 기초 | 데이터 병합 후 처리 | 중복 데이터 확인(duplicated 함수, keep / keep_equal / keep_shape / align(axis = ) / all(axis = 1)) | 중복 데이터 삭제(drop_duplicates 함수) | 데이터 비교(compare 함수 / eq.. 1. 데이터 병합 후 처리 : 데이터 병합 또는 재형성을 한 뒤에도 이상적인 모습으로 정리되지 않은 경우 처리하는 방법 ▶ 라이브러리 설치 및 가져오기 import pandas as pd import numpy as np 2. 합친 데이터에서 중복 행 확인, 삭제하기 : 2개 이상의 데이터를 합쳤을 때 생기는 중복데이터를 파악하고, 삭제 : 중복 데이터란, 모든 열의 값이 동일한 행을 의미 : 중복 행 유무는 deplicated() 함수로 확인 2-1) 중복 행 확인하기 * data_d 만들기 data_d = pd.DataFrame({ '패션아이템' : ['팬츠', '팬츠', '자켓', '자켓', '자켓'], '스타일' : ['캐주얼', '캐주얼', '캐주얼', '비즈니스룩', '비즈니스룩'], '선호도..
썸네일 데이터분석 기초 | 데이터 재형성 / 재배치(피벗) | stack, unstack 함수 | pivot 함수 개념 | melt 함수 개념 | id_vars , value_vars | var_name , value_name | 복합 개체 분리 explode 함수 1. 데이터 재형성과 피벗 : 테이블 형식의 데이터는 다양한 방식과 기준으로 데이터를 재배치(피벗)하는 것이 가능 : 판다스에 이러한 연산이 가능한 함수 있음 ▶ 라이브러리 설치 및 가져오기 import pandas as pd import numpy as np 2. 열을 인덱스로 교환하기 : 열을 인덱스로 교환하여 데이터를 재배치(피벗)할 수 있음 : stack()과 unstack() 함수 사용 ▶ coffee_size_data 만들기 coffee_size_data = pd.DataFrame([[10, 28], [8, 22]], index = ['스타벅스', '커피빈'], columns = ['테이블 수', '매장 규모(평)']) coffee_size_data ▶ .stack( ) / .unstack( ..
썸네일 데이터 분석 기초 | 데이터 상하/좌우 병합 | concat 함수 | append 함수 | merge 함수 | join 함수 | suffix, lsuffix, rsuffix 사용법 | combine_first 함수 1. 데이터 병합 ▶ 판다스_데이터 병합 : 판다스에 있는 함수를 이용해 흩어져 있는 데이터를 연결하고 병합 : 판다스의 시리즈, 데이터프레임같은 객체의 내부는 축마다 이름이 있기 때문에 쉽게 병합 가능 : concat() 함수와 append() 함수 이용 ▶ 라이브러리 설치 및 가져오기 import pandas as pd import numpy as np 2. 데이터 상·하로 병합하기 2-1) concat() ▶ menu1과 menu2라는 2개의 시리즈를 하나의 시리즈로 병합 menu1 = pd.Series(['파스타', '라면', '냉면'], index = [1, 2, 3]) menu2 = pd.Series(['돈가스', '피자', '치킨'], index = [4, 5, 6]) pd.concat([m..
썸네일 데이터분석 기초 | 문자 데이터 처리(object-dtype / StringDtype) | 정규 표현식 의미, 필수 문법, 함수 | 문자 수 세기 | split 함수 매개변수(pat, expand, regex) 1. 문자 데이터 처리 ▶ 판다스_문자열 타입 2가지 : object-dtype의 넘파이 배열, StringDtype 확장 타입 : StringDtype으로 변환해서 사용하는 것이 좋음 1-1) 라이브러리 설치 후 데이터셋 불러오기 ▶ 라이브러리 설치 및 가져오기 import pandas as pd import numpy as np ▶ 데이터셋 불러오기 titanic = pd.read_csv('./datasets/titanic.csv') ▶ 데이터셋에서 필요없는 변수는 미리 제거하고 진행 : PassengerId와 Cabin 변수 삭제 titanic.drop(['PassengerId', 'Cabin'], axis=1, inplace=True) 1-2) 문자열 데이터타입 변경하기 ▶ 데이터 타입을 Obje..
썸네일 데이터 분석 기초 | 이상값 처리 | 이상값 시각화(matplotlib 라이브러리/ 박스플롯) | IQR기법(사분위수, IQR 개념) | 이상값 삭제, 대체 1. 이상값 처리 ▶ matplotlib 라이브러리 : 라이브러리 안에 다양한 모듈이 있음 : 그중 pyplot 모듈은 MATLAB(공학용 도구로 유명함)과 비슷한 명령어 스타일로 동작하는 함수 모음 : pyplot 모듈의 함수를 사용해 간편하게 그래프를 그리고 수정 : 기본 그래프 그리기 → plot()함수 ▶ 라이브러리 설치 및 가져오기 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns ▶ 데이터셋 불러오기 titanic = pd.read_csv('./datasets/titanic.csv') titanic 2. 이상값 시각화하기 ▶ 박스플롯 시각화 : 데이터를 동일한 사이즈의 4개 그룹..
썸네일 데이터 분석 기초 | 결측값 처리 | 결측값 시각화(matplotlib, missingno 라이브러리) | 결측값 확인(isna / notna / isnull / notnull) | 결측값 삭제(dropna 사용법) | 결측값 대체(fillna / replace) 1. 결측값 처리 라이브러리 1-1) matplotlib 활용해서 결측값 시각화 ▶ matplotlib : 파이썬에서 사용할 수 있는 시각화 라이브러리. 주로 2D 그래프를 위한 패키지 (파이썬에서 matplotlib과 유사한 인터페이스를 지원하기 위해 시작, IPython과 협력해 대화형 시각화를 지원) ▶ 라이브러리 설치 pip install matplotlib import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns ▶ 데이터셋 불러오기 titanic = pd.read_csv('./datasets/titanic.csv') ▶ 결측값 시각화 plt.figure(figsize=(12, 7)) s..
썸네일 데이터 분석 기초 | 데이터 필터링 | isin()함수, ~ 틸테 사용법 | 쿼리(.query) | 결측값 제외하기(.notnull) | 특정 문자 포함하기(.contains) | 데이터 정렬(.sort_values / .nlargest) | 인덱스 정렬(.sort_index) | .. 1. 데이터 필터링(정제) : 판다스의 인덱싱 기법을 이용해 필요한 데이터를 추출하는 방법 : 상세 조건으로 데이터를 출력하거나 다른 함수를 활용해 데이터를 필터링하고 정렬 ▶ 라이브러리 설치 후 가져오기 import pandas as pd import numpy as np ▶ 데이터셋 불러오기 titanic = pd.read_csv('./datasets/titanic.csv') ▶ 데이터 정보 확인하기 * .info() : 데이터셋의 전반적인 정보 출력 * .columns : 현재 열 이름 출력 1-1) 조건식 데이터 필터링 ▶ 단일 조건식 활용 titanic[titanic.Pclass == 3].head() ▶ 다중 조건식 활용 titanic[(titanic.Pclass == 3) & (titanic..