데이터분석 시각화 | Matplotlib과 Seaborn | plot 함수 | linestyle 과 marker 종류 | Seaborn 내장 데이터셋 종류 | 그래프 자료 유형

    728x90

     

    0. 데이터분석 시각화 대표 라이브러리, Matplotlib과 Seaborn

     

    앞서 Pandas로 데이터 분석을 어느 정도 마쳤다면, 이번에는 분석한 결과시각화해보자.

    데이터를 시각화해주는 라이브러리는 대표적으로 MatplotlibSeaborn이 있다.

     

    각 라이브러리의 활용법을 자세히 알아보고 싶은 분은 하단 링크 클릭!

     

    [참고 게시글]

    [AI기본과정/데이터분석 기초] - 데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스플롯 그리기 | 옵션 사용자화 방법(색 변경, 범례 설정, 선 스타일, 그리드, 타이틀 설정 등)

     

    데이터 분석 기초 | Matplotlib 데이터 시각화 | 라인 그래프, 히스토그램, 막대그래프, 산점도, 박스

    1. Matplotlib 데이터 시각화 ▶ Matplotlib 라이브러리 : 저수준의 그래픽용 라이브러리 ▶ 참고 사이트 https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.subplots.html matplotlib.pyplot.subplots — Matplotlib 3.7.1 docu

    nasena.tistory.com

    [AI기본과정/데이터분석 기초] - 데이터 분석 기초 | Seaborn 데이터 시각화 | 라인 그래프, 히스토그램, 막대 그래프, 산점도, 박스플롯 그리기 |

     

    데이터 분석 기초 | Seaborn 데이터 시각화 | 라인 그래프, 히스토그램, 막대 그래프, 산점도, 박스

    1. Seaborn ▶ Seaborn(시본) 라이브러리 : 파이썬의 대표적인 시각화 도구 → matplotlib, seaborn : 매우 간결하고 직관적이나 세부적인 변경에 제한이 있음 : 정교하게 조절할 때는 matplotlib을 함께 사용 :

    nasena.tistory.com


    1. 데이터 시각화의 목적과 사례

     

    ▶ 패턴 발견 및 이해

    • 시간에 따른 매출 추이 분석
      시간(월, 분기, 연도 등)에 따른 매출 추이를 선 그래프로 시각화하면,
      계절적 변동 등 특정 시기의 매출이 증감하는 이유를 이해할 수 있음
    • 지역 별 매출 비교 분석
      지도로 지역 별 매출을 시각화하면,
      지역 간의 매출 차이나 특정 지역에서 매출이 높은 이유를 이해할 수 있음
    • 제품 카테고리 별 매출 분석
      막대그래프나 원형 차트로 제품 카테고리 별 매출을 시각화하면,
      가장 많은 매출을 올리는 카테고리를 파악할 수 있고, 특정 카테고리의 성장세를 이해할 수 있음
    • 고객 구매 패턴 분석
      히스토그램이나 상자 그림(Box Plot)으로 고객의 구매 패턴을 시각화하면,
      평균 구매액, 최고/최저 구매액, 이상치 데이터 등을 파악할 수 있고, 고객들의 구매 습관이나 행동을 이해할 수 있음

    ▶ 의사결정 지원

    • 마케팅 캠페인 효과 분석
      시간에 따른 매출 또는 고객 유입량의 변화를 추적하는 선 그래프로,
      마케팅 캠페인 실행 전후의 매출 및 고객 유입량 변화를 파악해 마케팅 캠페인의 효과 확인
    • 캠페인 채널 별 효과 비교
      막대 그래프나 원형 차트를 사용해
      각 마케팅 캠페인 채널(SNS, 이메일, 광고 등) 별 매출 및 고객 획득량을 비교해 가장 효과적인 채널을 확인하고, 자원 분배를 최적화할 수 있음
    • 고객 반응 분석
      히스토그램이나 상자 그림을 사용하여
      특정 마케팅 캠페인에 참여한 고객들의 평균 구매액 증가, 반응 시간의 변화 등을 시각화해 캠페인의 효과를 확인할 수 있음
    • A/B 테스트 결과 시각화
      A/B 테스트 결과를 시각화한 그래프를 통해
      다른 버전의 마케팅 캠페인이나 웹페이지 등의 변화가 고객 행동에 미치는 영향을 확인할 수 있음
      이를 통해 효과적인 디자인 및 콘텐츠가 무엇인지 시각적으로 확인할 수 있음

    ▶ 효과적인 커뮤니케이션

    • 보고서와 프레젠테이션
      다양한 차트, 그래프, 히트맵 등을 사용하여 분석 결과를 시각적으로 나타내면
      보고서나 프레젠테이션 안에서 빠르고 명확하게 데이터의 핵심 내용을 전달할 수 있음
    • 의사 결정자와의 논의
      시각적인 그래프나 차트를 보여주면 의사결정자들이 데이터를 더 수비게 이해하고, 빠르게 의사결정을 할 수 있음
    • 다양한 대중에게의 정보 전달
      쉽게 이해할 수 있는 그래픽으로 데이터 분석 결과를 블로그, 보고서, 뉴스레터 등에 활용하면 많은 사람들에게 데이터에 대한 인사이트를 제공할 수 있음
    • 소셜미디어 및 인터넷 활용
      인포그래픽, 그래픽 이미지 등으로 복잡한 데이터를 간결하게 정리한 시각화 자료는 소셜미디어 상에서 데이터 기반의 이야기를 공유하는 데 유용함
    • 간결하고 효과적인 커뮤니케이션
      시각화로 데이터의 핵심을 간결하게 전달하면 전문가와 비전문가 모두가 쉽게 이해하고 의사소통 할 수 있게 됨

    2. Matplotlib (맷플롯립)이란?

     

    ▶Matplotlib 라이브러리

    • 파이썬에서 데이터 분석 결과를 시각화할 때 사용하는 대표적인 라이브러리
      다양한 종류의 그래프를 생성할 수 있는 도구를 제공

    ▶ Matplotlib 기능

    • 2D 그래픽을 생성하는 데 주로 사용
    • 선 그래프, 막대 그래프, 히스토그램, 산점도, 파이 차트 등 다양한 시각화 방식 지원
    • 그래프를 색상, 스타일, 레이블, 축 범위 등을 조절하여 원하는 형태로 시각화할 수 있음
    • matplotlib.pyplot
      • plot() 함수: 2차원 데이터를 시각화하기 위해 사용
    import matplotlib.pyplot as plt
    
    # Figure 객체 생성 및 사이즈 설정
    plt.figure(figsize=(8, 6))  # 가로 8인치, 세로 6인치
    
    # 데이터 생성
    x = [1, 2, 3, 4, 5]
    y = [2, 4, 6, 8, 10]
    
    # 선 그래프 그리기
    # linestyle과 marker의 종류는 하단에 설명
    plt.plot(x, y, color='light pink', linestyle='--', marker='o', label='Data Series')
    
    # x축 이름
    plt.xlabel('X-axis')
    
    # y축 이름
    plt.ylabel('Y-axis')
    
    # 제목
    plt.title('Example Plot')
    
    # 범례
    plt.legend()
    
    # 특정 좌표에 텍스트 추가
    plt.text(3, 8, 'Some Text', fontsize=12) 
    
    # 그래프 출력
    plt.show()

     

    ▶ plot( ) 함수 파라미터

    ▼ linestyle = (선 스타일)

    • 실선 '-' 
    • 대시선 '--'
    • 점선 ':'
    • 점-대시선 '-.'

    ▼ marker = (마커)

    • 원 'o'
    • 삼각형 '^'
    • 사각형 's'
    • 플러스 '+'
    • 엑스 'x'

    ▶ Seaborn 라이브러리에서 내장 데이터셋 불러오기

    • iris 데이터셋
      붓꽃의 꽃잎과 꽃받침의 길이와 너비를 포함한 데이터셋
    • tips 데이터셋
      음식점에서의 팁과 관련된 정보를 담고 있는 데이터셋
    • titanic 데이터셋
      타이타닉 호 승객들의 정보를 포함한 데이터셋
    • flights 데이터셋
      연도별 항공편 정보를 담고 있는 데이터셋
    • planets 데이터셋외계 행성 발견에 대한 정보를 담고 있는 데이터셋
    import seaborn as sns
    
    # 'tips' 데이터셋 불러오기
    tips_data = sns.load_dataset('tips')
    
    # 데이터셋 확인
    print(tips_data.head())

    3. 그래프 자료유형

     

    ▶ 그래프 자료 유형

    그래프 유형 자료 유형 특징
    Line Plot 연속형 데이터 데이터의 변화 및 추이를 시각화
    Bar Plot 범주형 데이터 카테고리 별 값의 크기를 시각적으로 비교
    Histogram 연속형 데이터 데이터 분포, 빈도, 패턴 등을 이해
    Pie Chart 범주형 데이터의 비율 범주 별 상대적 비율을 부채꼴 모양으로 시각화
    Box Plot 연속형 데이터의 분포 중앙값, 사분위수, 최소값, 최대값, 이상치 확인
    Scatter Plot 두 변수 간 관계 변수 간의 관계, 군집, 이상치 등 확인
    728x90

    댓글