데이터분석 과정/데이터 분석

데이터분석 전처리 | 파이썬(Pandas) 파일_텍스트 깨질 때 해결 방법 | 인코딩 | encoding = | UTF-8

ANNASENA 2024. 2. 3. 17:24
728x90

 

Pandas 파일 불러오기 + 텍스트 깨졌을 때 해결방법

 

▶ 파일이 깨지는 이유

 

Pandas에서 파일을 불러올 때

텍스트 데이터를 읽어오는 과정에서 파일의 인코딩 방식정확히 지정하지 않았기 때문

 

여기서 잠깐!

인코딩이란, 한글과 같은 ASCII 범위를 벗어난 문자표현하기 위한 변형 작업이라고 이해하면 됨

 

파일의 인코딩 방식을 왜 정확히 지정해야 하냐면, 인코딩 방식이 다양하기 때문

한글만 하더라도 utf-8 인코딩, euc-kr 인코딩, Microsoft 사의 cp949/ms949 인코딩 등 수많은 인코딩이 존재함 

 

즉, 파일이 utf-8로 인코딩 되어 있는데 이 파일을 cp949 인코딩 방식으로 읽어오려고 하면

잘못된 Byte 변환을 하기 때문깨짐 현상일어나게 됨

 

▶ 인코딩 예시

import pandas as pd

# UTF-8 인코딩으로 파일 불러오기
data = pd.read_csv('file.csv', encoding='utf-8')

# ASCII 인코딩으로 파일 불러오기
data = pd.read_csv('file.csv', encoding='ascii')
728x90