1. 데이터 리터러시의 정의
- 데이터를 읽는 능력
- 데이터를 이해하는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용하는 능력
▶ 데이터 리터러시란?
- 데이터 수집과 데이터 원천을 이해하고
- 주어진 데이터에 대한 다양한 활용법을 이해하고
- 데이터를 통한 핵심 지표를 이해하는 것
◈ 데이터 리터러시는 올바른 질문을 던질 수 있게 만들어줌
2. 데이터 분석에 대한 착각
- 데이터를 잘 분석하면 문제, 목적, 결론이 나올 것이라고 생각
- 데이터를 잘 가공하면 유용한 정보를 얻을 수 있을 것이라고 생각
- 분석에 실패하면 방법론, 스킬이 부족한 것이라고 생각
▶ 데이터 해석 오류 사례
① 심슨의 역설
- '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우를 말함
- 전체에 대한 결론이 언제나 개별 집단에 그대로 적용되는 건 아님
- 데이터에 기반한 결론이라고 해서 이를 맹목적으로 받아들여서는 안됨
[참고 게시글]
[IT 교육/데이터 분석] - 데이터분석 | 타이타닉 생존자의 비밀 파헤치기 | 생존율과 가장 관련이 깊은 요인은?
>> 위 게시글의 내용 중 '가설2 : 나이대별 생존율의 관계성' 부분 참고
위 게시글의 내용을 확인해보면,
전체 결론은 '성별과 좌성등급이 생존율에 영향을 미친다' 였지만,
'나이'도 나이대 별로 나눈 뒤에 생존율과의 상관관계를 자세히 보니
Baby와 Children의 생존율이 특히 더 높았다는 사실을 알 수 있게 됨.
◈ 나 자신에게 하는 말
데이터 분석을 할 때는 전체적인 결론도 중요하지만 때로는 개별 집단 내의 결과를 세분화한 뒤에 다시 살펴 보자. 어떤 새로운 결말을 얻을지 아무도 몰라.. ★
② 시각화를 활용한 왜곡
- 자료의 표현 방법에 따라서 해석의 오류 여지가 존재
>> (왼쪽) 있는 그대로의 자료 : 노동자의 임금이 현저히 낮음
>> (중간) 증가량에 로그를 취한 자료 : 노동자들의 임금 증가가 급격하게 이루어져 왔다고 해석될 여지 존재
>> (오른쪽) 노동자와 자본가의 최초 수입을 100%로 놓고 이후의 증가율에 대한 자료 : 노동자들의 임금 증가가 자본가의 임금 증가를 훨씬 능가한다고 해석할 여지 존재
③ 샘플링 편향 (Sampling Bias)
- 전체를 대표하지 못하는 편향된 샘플 선정으로 인한 오류
- 표본이 편향되면 실제와는 다른 해석이 도출될 수 있음
>> (1936년 미국 대선) Literary Digest 잡지사의 샘플링 편향 오류로 인한 대선 결과 예측 실패
Literary Digest는 공화당 랜던이 대선에서 이길 것이라고 예측했지만, 결론은 민주당 루즈벨트의 승!
이런 결과가 나온 이유는,
- Literary Digest가 여론 조사용 주소를 얻기 위해 사용한 방법들(전화번호부, 자사 구독자 명부, 클럽 회원 명부)은 모두 공화당에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 있었음
- 우편물 수신자 중 25% 미만의 사람만 응답함. 정치에 관심이 없거나 Literary Digest에 반감이 있는 사람, 그 외의 사람들은 모두 제외되어 표본을 편향되게 만듦
③ 상관관계와 인과관계
- 상관관계 : 두 변수가 얼마나 상호 의존적인지를 알려줌
한 요인 변수가 증가할 때 다른 요인의 변수가 같이 증가/감소하는지를 파악
- 인과관계 : 원인과 결과
하나의 요인으로 인해 다른 요인의 수치가 변하는지 파악
- 상관관계는 인과관계가 아님!
>> (1940년대 보건 전문가) 소아마비와 아이스크림 섭취 간의 연구 결과
당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견하고, 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고함.
하지만 이런 결론에 허점이 있었는데,
- 소아마비는 여름에 많이 발생
- 아이스크림은 여름에 판매량이 급증
즉, 소아마비와 아이스크림 섭취량은 어떤 인과관계도 없었지만, 단순히 '날씨'라는 변수로 인해 양 쪽에 공통으로 영향을 주게 된 것!
◈ 나에게 하는 말
그러니까 상관관계만으로는 섣불리 판단을 내리지 말자.!!
3. 데이터 분석에 대한 접근법
위 세가지 단계 중 '생각' 단계에서 데이터 리터러시가 필요함
데이터 분석이 목적이 되지 않도록 항상 '왜?'를 생각해야 함
'데이터분석 과정 > 데이터 분석' 카테고리의 다른 글
데이터 리터러시 | 데이터의 유형 | 정성적 데이터와 정량적 데이터 (1) | 2024.01.24 |
---|---|
데이터 리터러시 | 문제정의의 중요성 | 문제정의 방법론 | 문제정의 핵심, 팁 (1) | 2024.01.23 |
데이터분석 실습 | 주차 간 전환율로 리텐션 테이블, 히트맵 만들기 (1) | 2024.01.22 |
데이터분석 실습 | 할인율이 높을수록 결제전환율이 올라갈까? (1) | 2024.01.22 |
데이터분석 실습 | 최적의 즉문즉답 시간대 찾기 (0) | 2024.01.21 |
댓글