데이터분석 기초 | .loc 사용법 | .iloc 사용법 | 문자형 데이터 인덱싱 | 문자형 인덱스 | 위치 기반 인덱싱 | set_index / reset_index 1. 라이브러리 설치 후 데이터셋 불러오기 ▶ 라이브러리 설치 import pandas as pd import seaborn as sns ▶ 데이터셋 불러오기 : 데이터셋 불러온 뒤 transpose()로 열과 인덱스 전치하여 문자형 인덱스 만들기 df = sns.load_dataset('penguins') df = df[:11].transpose() df 2. .loc : 문자형 데이터 인덱싱에 사용 2-1) 특정 문자형 인덱스에 접근 ▶ 1개의 문자형 인덱스 df.loc['bill_length_mm'] ▶ 2개 이상의 문자형 인덱스 * 2개 df.loc[['bill_length_mm', 'sex']] * 3개 df.loc[['bill_length_mm', 'species','sex']] 2-2) 인덱.. 데이터분석 기초 | 열 호출 | 새로운 열 생성(.assign) | 열 삭제 (drop / inplace = True) | 동일한 데이터 타입 열 출력(select_dtypes) | 열 이름, 열 순서 변경 | 열 <> 인덱스 자리 바꿈 (transpose / .T) 1. 라이브러리 설치 후 데이터셋 불러오기 ▶ 라이브러리 설치하기 import pandas as pd import seaborn as sns ▶ 데이터셋 불러오기 df = sns.load_dataset('penguins') df 2. 열 호출하기 2-1) 열 이름 출력하기 ▶ df.columns : 현재 어떤 열이 있고, 이름은 무엇인지 알고 싶을 때 출력 2-2) 단일 열 호출하기 ▶ 방법1 : df['특정 열'] df['species'] ▶ 방법2 : df.species df.species 2-3) 복수 열 호출하기 ▶ 방법1 ▶ 방법2 : columns = columns = ['species', 'bill_depth_mm'] df[columns] 3. 복수 열을 결합해서 데이터프레임 생성하기 new.. 데이터분석 기초 | 데이터 차원, 길이 확인(.shape / .size) | 데이터타입 확인(.dtypes) | 자동/수동으로 데이터타입 변경(.covert_dtypes / .astype) | 기술통계 정보확인(.describe) | include = / exclude = 사용법 1. 데이터 불러오기 1-1) 라이브러리 설치 후 데이터셋 불러오기 ▶ 라이브러리 설치하기 import pandas as pd import seaborn as sns import numpy as np ▶ 라이브러리에서 데이터셋 불러오기 : 데이터셋 penguins >> 펭귄의 종류와 각 종류의 펭귄이 서식하는 섬, 개별 펭귄의 성별, 부리의 길이와 깊이, 지느러미 길이, 몸무게 등 신체 사이즈 관련 값을 담고 있음 df = sns.load_dataset('penguins') # 344개의 로우와 7개의 컬럼으로 구성 df 1-2) 일부 데이터만 출력해보기 ▶ df.head() : () 안의 숫자만큼 앞에서부터 데이터 출력 : () 안에 아무 숫자도 적지 않으면 앞에서부터 5개의 데이터가 출력됨 ▶ df... 데이터분석 기초 | 데이터 로드(pd.read_) | 헤더 없는 데이터 로드(header = None) | 일부 행 건너뛰기 skiprows() | 결측값 데이터 로드 | 인코딩 에러 해결 | 출력 가능 데이터 수 지정 pd.set_option() | 데이.. 1. 데이터 로드하기 : 로드할 데이터 파일은 (현재 자신이 코딩하고 있는) 프로그램의 코드가 저장되는 곳과 동일한 위치에 미리 저장해두기 : 판다스로 저장한 외부 데이터셋을 로드 : 판다스의 데이터 로드 관련 함수들은 데이터 로드와 동시에 데이터 타입도 추론함 : 대표적인 csv 파일을 기준으로 로드 ▶ 판다스 라이브러리 설치 import pandas as pd 2. 데이터 읽어오기 2-1) 데이터 읽기 ▶ pd.read_csv : csv 파일 데이터 읽어오기 df = pd.read_csv('./datasets/example_1.csv') df # 데이터프레임 형식으로 읽어옴 ▶ pd.read_table : csv파일 데이터를 테이블로 읽어오기 : 함수의 매개변수 중 구분자를 의미 >> sep 쉼표 p.. 데이터분석 기초 | Pandas 판다스 설치 | Pandas 사용 방법 | 데이터 구조 | 시리즈, 데이터 프레임 개념 | 시리즈, 데이터 프레임 생성 방법 | Numpy(넘파이), 딕셔너리 활용 1. Padas(판다스) 기본 1. 파이썬으로 표 형태의 데이터를 처리할 때 폭넓은 기능을 제공해주는 라이브러리 2. 간단한 개념 증명이나 빠르고 쉬운 데이터 처리에 간편히 판다스를 사용 3. 결과물을 HTML, Excel, DB 파일 등 원하는 형식으로 출력 가능 2. Pandas 설치 pip install pandas import pandas as pd # 에러 안 나면 정상적으로 설치 된 것 ▶ Pandas 버전 확인 print(pd.__version__) 3. Pandas 활용 기본 ▶ 판다스 사용이유 1. 파이썬의 데이터 조작 기능을 강화 2. 대표적 데이터 관련 라이브러리 3. 데이터 프레임 조작에 특화 ▶ 데이터 구조_시리즈와 데이터프레임의 개념 4. 시리즈 생성 방법과 특징 ▶ 시리즈 생성.. 데이터분석 기초 | Numpy 넘파이 설치 | Numpy 데이터 타입(.dtype) 종류 정리, 데이터 타입 변환(.astype) | Numpy 난수(.rand / .randn / randint) 생성 | Numpy 함수(percentil, cumsum, cumprod 등) | Numpy 집합 관련 함수 1. Numpy(넘파이) 기본 대수, 행렬, 통계 등 수학 및 과학연산을 위한 라이브러리 ndarray 라는 다차원 배열을 데이터로 나타내고 처리하는데 특화 파이썬의 기본 List에 비해 실행속도가 빠르고 짧고 간결한 코드 구현이 가능 Numpy는 외부 라이브러리이므로, 설치 후 사용 2. Numpy 설치 pip install numpy import numpy as np # 에러 안 나면 정상적으로 설치 된 것 ▶ Numpy 버전 확인 print(np.__version__) ▶ Numpy 업그레이드 / 다운그레이드 pip install numpy -- upgrade # 업그레이드 pip install numpy == 1.20 # 특정 버전으로 업그레이드/다운그레이드 가능 3. Numpy 활용 기본 ▶ N.. 이전 1 2 다음