썸네일 데이터분석 전처리 | 데이터 집계 | 파이썬 group by | aggfunc 사용법 | 파이썬에서 Pivot Table 만드는 법 | 파이썬 정렬 | sort_values( ), sort_index( ) 1. groupby( ) ▶ groupby 함수 : 데이터프레임을 특정 기준에 따라 그룹화하고, 그룹 단위로 데이터를 분할(split), 적용(apply), 결합(combine) 하는 기능을 제공 그룹 생성: 기준 열(또는 열들)을 지정하여 데이터프레임을 그룹으로 나눔 그룹에 대한 연산 수행: 그룹 단위로 원하는 연산(평균, 합계, 개수 세기 등)을 수행함 결과 결합: 각 그룹의 연산 결과를 하나의 데이터프레임으로 결합해 새로운 데이터프레임을 생성함 : 복수의 열을 기준으로 그룹화하여 데이터프레임을 조작하는 경우, groupby() 함수에 복수의 열을 [리스트]로 전달하여 원하는 그룹화 기준을 지정하고, agg() 함수를 사용하여 여러 열에 대해 다양한 집계 함수를 적용할 수 있음 : 숫치형 데이터의 경..
썸네일 데이터분석 | 가장 적절한 고객 관리 타이밍 | 제품 수요가 많은 지역 찾기 0. 가설 설정하기 ▶ 가설1 : 가장 적절한 고객관리 타이밍은? 강의 완주율 개선을 위한 고객관리 메시지를 보낼 최적의 시간대 찾기 온라인 강의를 수강생들이 가장 많이 혹은 가장 적게 듣는 요일과 시간 찾기 1. 분석할 데이터 가져오기 ▶ 라이브러리 가져오기 import pandas as pd ▶ 스파르타 데이터 읽어오기 sparta_data = pd.read_table('/content/access_detail.csv', sep = ',') sparta_data.head() lecture_id : 수강 강의 id access_date : 접속 시작 날짜 및 시간 user_id : 유저 id 2. 데이터 전처리하기 우리가 필요한 데이터는 '요일'과 '시간' 데이터 access_date (처리 일자) 데..
썸네일 데이터 분석 기초 | 데이터 필터링 | isin()함수, ~ 틸테 사용법 | 쿼리(.query) | 결측값 제외하기(.notnull) | 특정 문자 포함하기(.contains) | 데이터 정렬(.sort_values / .nlargest) | 인덱스 정렬(.sort_index) | .. 1. 데이터 필터링(정제) : 판다스의 인덱싱 기법을 이용해 필요한 데이터를 추출하는 방법 : 상세 조건으로 데이터를 출력하거나 다른 함수를 활용해 데이터를 필터링하고 정렬 ▶ 라이브러리 설치 후 가져오기 import pandas as pd import numpy as np ▶ 데이터셋 불러오기 titanic = pd.read_csv('./datasets/titanic.csv') ▶ 데이터 정보 확인하기 * .info() : 데이터셋의 전반적인 정보 출력 * .columns : 현재 열 이름 출력 1-1) 조건식 데이터 필터링 ▶ 단일 조건식 활용 titanic[titanic.Pclass == 3].head() ▶ 다중 조건식 활용 titanic[(titanic.Pclass == 3) & (titanic..