데이터분석 전처리 | 파이썬(Pandas) 파일_텍스트 깨질 때 해결 방법 | 인코딩 | encoding = | UTF-8

    728x90

     

    Pandas 파일 불러오기 + 텍스트 깨졌을 때 해결방법

     

    ▶ 파일이 깨지는 이유

     

    Pandas에서 파일을 불러올 때

    텍스트 데이터를 읽어오는 과정에서 파일의 인코딩 방식정확히 지정하지 않았기 때문

     

    여기서 잠깐!

    인코딩이란, 한글과 같은 ASCII 범위를 벗어난 문자표현하기 위한 변형 작업이라고 이해하면 됨

     

    파일의 인코딩 방식을 왜 정확히 지정해야 하냐면, 인코딩 방식이 다양하기 때문

    한글만 하더라도 utf-8 인코딩, euc-kr 인코딩, Microsoft 사의 cp949/ms949 인코딩 등 수많은 인코딩이 존재함 

     

    즉, 파일이 utf-8로 인코딩 되어 있는데 이 파일을 cp949 인코딩 방식으로 읽어오려고 하면

    잘못된 Byte 변환을 하기 때문깨짐 현상일어나게 됨

     

    ▶ 인코딩 예시

    import pandas as pd
    
    # UTF-8 인코딩으로 파일 불러오기
    data = pd.read_csv('file.csv', encoding='utf-8')
    
    # ASCII 인코딩으로 파일 불러오기
    data = pd.read_csv('file.csv', encoding='ascii')
    728x90

    댓글