0. 데이터분석 시각화 대표 라이브러리, Matplotlib과 Seaborn
앞서 Pandas로 데이터 분석을 어느 정도 마쳤다면, 이번에는 분석한 결과를 시각화해보자.
데이터를 시각화해주는 라이브러리는 대표적으로 Matplotlib과 Seaborn이 있다.
각 라이브러리의 활용법을 자세히 알아보고 싶은 분은 하단 링크 클릭!
[참고 게시글]
데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스
1. Matplotlib 데이터 시각화 ▶ Matplotlib 라이브러리 : 저수준의 그래픽용 라이브러리 ▶ 참고 사이트 https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html matplotlib.pyplot.subplots — Matplotlib 3.7.1 docu
nasena.tistory.com
[AI기본과정/데이터분석 기초] - 데이터 분석 기초 | Seaborn 데이터 시각화 | 라인 그래프, 히스토그램, 막대 그래프, 산점도, 박스플롯 그리기 |
데이터 분석 기초 | Seaborn 데이터 시각화 | 라인 그래프, 히스토그램, 막대 그래프, 산점도, 박스
1. Seaborn ▶ Seaborn(시본) 라이브러리 : 파이썬의 대표적인 시각화 도구 → matplotlib, seaborn : 매우 간결하고 직관적이나 세부적인 변경에 제한이 있음 : 정교하게 조절할 때는 matplotlib을 함께 사용 :
nasena.tistory.com
1. 데이터 시각화의 목적과 사례
▶ 패턴 발견 및 이해
- 시간에 따른 매출 추이 분석
시간(월, 분기, 연도 등)에 따른 매출 추이를 선 그래프로 시각화하면,
계절적 변동 등 특정 시기의 매출이 증감하는 이유를 이해할 수 있음 - 지역 별 매출 비교 분석
지도로 지역 별 매출을 시각화하면,
지역 간의 매출 차이나 특정 지역에서 매출이 높은 이유를 이해할 수 있음 - 제품 카테고리 별 매출 분석
막대그래프나 원형 차트로 제품 카테고리 별 매출을 시각화하면,
가장 많은 매출을 올리는 카테고리를 파악할 수 있고, 특정 카테고리의 성장세를 이해할 수 있음 - 고객 구매 패턴 분석
히스토그램이나 상자 그림(Box Plot)으로 고객의 구매 패턴을 시각화하면,
평균 구매액, 최고/최저 구매액, 이상치 데이터 등을 파악할 수 있고, 고객들의 구매 습관이나 행동을 이해할 수 있음
▶ 의사결정 지원
- 마케팅 캠페인 효과 분석
시간에 따른 매출 또는 고객 유입량의 변화를 추적하는 선 그래프로,
마케팅 캠페인 실행 전후의 매출 및 고객 유입량 변화를 파악해 마케팅 캠페인의 효과 확인 - 캠페인 채널 별 효과 비교
막대 그래프나 원형 차트를 사용해
각 마케팅 캠페인 채널(SNS, 이메일, 광고 등) 별 매출 및 고객 획득량을 비교해 가장 효과적인 채널을 확인하고, 자원 분배를 최적화할 수 있음 - 고객 반응 분석
히스토그램이나 상자 그림을 사용하여
특정 마케팅 캠페인에 참여한 고객들의 평균 구매액 증가, 반응 시간의 변화 등을 시각화해 캠페인의 효과를 확인할 수 있음 - A/B 테스트 결과 시각화
A/B 테스트 결과를 시각화한 그래프를 통해
다른 버전의 마케팅 캠페인이나 웹페이지 등의 변화가 고객 행동에 미치는 영향을 확인할 수 있음
이를 통해 효과적인 디자인 및 콘텐츠가 무엇인지 시각적으로 확인할 수 있음
▶ 효과적인 커뮤니케이션
- 보고서와 프레젠테이션
다양한 차트, 그래프, 히트맵 등을 사용하여 분석 결과를 시각적으로 나타내면
보고서나 프레젠테이션 안에서 빠르고 명확하게 데이터의 핵심 내용을 전달할 수 있음 - 의사 결정자와의 논의
시각적인 그래프나 차트를 보여주면 의사결정자들이 데이터를 더 수비게 이해하고, 빠르게 의사결정을 할 수 있음 - 다양한 대중에게의 정보 전달
쉽게 이해할 수 있는 그래픽으로 데이터 분석 결과를 블로그, 보고서, 뉴스레터 등에 활용하면 많은 사람들에게 데이터에 대한 인사이트를 제공할 수 있음 - 소셜미디어 및 인터넷 활용
인포그래픽, 그래픽 이미지 등으로 복잡한 데이터를 간결하게 정리한 시각화 자료는 소셜미디어 상에서 데이터 기반의 이야기를 공유하는 데 유용함 - 간결하고 효과적인 커뮤니케이션
시각화로 데이터의 핵심을 간결하게 전달하면 전문가와 비전문가 모두가 쉽게 이해하고 의사소통 할 수 있게 됨
2. Matplotlib (맷플롯립)이란?
▶Matplotlib 라이브러리
- 파이썬에서 데이터 분석 결과를 시각화할 때 사용하는 대표적인 라이브러리
다양한 종류의 그래프를 생성할 수 있는 도구를 제공
▶ Matplotlib 기능
- 2D 그래픽을 생성하는 데 주로 사용
- 선 그래프, 막대 그래프, 히스토그램, 산점도, 파이 차트 등 다양한 시각화 방식 지원
- 그래프를 색상, 스타일, 레이블, 축 범위 등을 조절하여 원하는 형태로 시각화할 수 있음
- matplotlib.pyplot
- plot() 함수: 2차원 데이터를 시각화하기 위해 사용
import matplotlib.pyplot as plt
# Figure 객체 생성 및 사이즈 설정
plt.figure(figsize=(8, 6)) # 가로 8인치, 세로 6인치
# 데이터 생성
x = [1, 2, 3, 4, 5]
y = [2, 4, 6, 8, 10]
# 선 그래프 그리기
# linestyle과 marker의 종류는 하단에 설명
plt.plot(x, y, color='light pink', linestyle='--', marker='o', label='Data Series')
# x축 이름
plt.xlabel('X-axis')
# y축 이름
plt.ylabel('Y-axis')
# 제목
plt.title('Example Plot')
# 범례
plt.legend()
# 특정 좌표에 텍스트 추가
plt.text(3, 8, 'Some Text', fontsize=12)
# 그래프 출력
plt.show()
▶ plot( ) 함수 파라미터
▼ linestyle = (선 스타일)
- 실선 '-'
- 대시선 '--'
- 점선 ':'
- 점-대시선 '-.'
▼ marker = (마커)
- 원 'o'
- 삼각형 '^'
- 사각형 's'
- 플러스 '+'
- 엑스 'x'
▶ Seaborn 라이브러리에서 내장 데이터셋 불러오기
- iris 데이터셋
붓꽃의 꽃잎과 꽃받침의 길이와 너비를 포함한 데이터셋 - tips 데이터셋
음식점에서의 팁과 관련된 정보를 담고 있는 데이터셋 - titanic 데이터셋
타이타닉 호 승객들의 정보를 포함한 데이터셋 - flights 데이터셋
연도별 항공편 정보를 담고 있는 데이터셋 - planets 데이터셋외계 행성 발견에 대한 정보를 담고 있는 데이터셋
import seaborn as sns
# 'tips' 데이터셋 불러오기
tips_data = sns.load_dataset('tips')
# 데이터셋 확인
print(tips_data.head())
3. 그래프 자료유형
▶ 그래프 자료 유형
그래프 유형 | 자료 유형 | 특징 |
Line Plot | 연속형 데이터 | 데이터의 변화 및 추이를 시각화 |
Bar Plot | 범주형 데이터 | 카테고리 별 값의 크기를 시각적으로 비교 |
Histogram | 연속형 데이터 | 데이터 분포, 빈도, 패턴 등을 이해 |
Pie Chart | 범주형 데이터의 비율 | 범주 별 상대적 비율을 부채꼴 모양으로 시각화 |
Box Plot | 연속형 데이터의 분포 | 중앙값, 사분위수, 최소값, 최대값, 이상치 확인 |
Scatter Plot | 두 변수 간 관계 | 변수 간의 관계, 군집, 이상치 등 확인 |
댓글