728x90
Pandas 파일 불러오기 + 텍스트 깨졌을 때 해결방법
▶ 파일이 깨지는 이유
Pandas에서 파일을 불러올 때
텍스트 데이터를 읽어오는 과정에서 파일의 인코딩 방식을 정확히 지정하지 않았기 때문
여기서 잠깐!
인코딩이란, 한글과 같은 ASCII 범위를 벗어난 문자를 표현하기 위한 변형 작업이라고 이해하면 됨
파일의 인코딩 방식을 왜 정확히 지정해야 하냐면, 인코딩 방식이 다양하기 때문
한글만 하더라도 utf-8 인코딩, euc-kr 인코딩, Microsoft 사의 cp949/ms949 인코딩 등 수많은 인코딩이 존재함
즉, 파일이 utf-8로 인코딩 되어 있는데 이 파일을 cp949 인코딩 방식으로 읽어오려고 하면
잘못된 Byte 변환을 하기 때문에 깨짐 현상이 일어나게 됨
▶ 인코딩 예시
import pandas as pd
# UTF-8 인코딩으로 파일 불러오기
data = pd.read_csv('file.csv', encoding='utf-8')
# ASCII 인코딩으로 파일 불러오기
data = pd.read_csv('file.csv', encoding='ascii')
728x90
댓글