+ 팔로우
데이터 분석의 힘
이토 고이치로 지음
인플루엔셜(주) 펴냄
4차산업혁명 시대의 화두인 빅데이터.
정형, 비정형데이터가 난무하는 수많은 데이터 속에서 어떻게 분석하고 가공하여 의미를 찾아낼 것인지?
데이터 분석의 기본 개념 설명을 다룬 책이다.
우리는 흔히 상관관계와 인과관계를 착각한다. 이를 분명히 할 필요가 있다.
광고를 했더니 아이스크림 매출이 급상승했다?
광고 이외에도 아이스크림 판매에 영향을 미친 요인을 따져봐야한다.
우리뿐만 아니라 언론에서도 학계의 연구결과를 갖고 굉장히 비약적인 메시지를 던지기도 한다.
모든 잘못된 데이터 분석의 출발점은 이 지점이다.
‘데이터의 상관관계는 인과관계가 아니다.’
이어서 데이터 분석기법 몇가지를 소개한다.
1. RCT 무작위비교시행
Randomized controlled trial
오바마캠프가 6000만 달러의 후원금을 더 모을 수 있었던 비밀,
웹사이트의 이미지와 문구 조합은 그냥 만들어진게 아니다.
2. 자연실험 quasi-experiment
2-1. RD디자인 (회귀불연속설계법)
불연속 discontinutiy 과 경계선 borderline 이 특징
일본의 사례, 70세이상부터 의료비 본인부담금을 덜어주는 경계선에 착안하다
급격한 변화의 경계선을 찾는게 핵심
경계선에서 데이터가 집적한다.
2-2. 집군분석
계단식 변화가 있는 곳에선 집군분석이 유리하다.
자동차 연비 규제, 덴마크의 한계 소득 세율 등
2-3. 패널 데이터 분석
= 이중차분법 difference in differences methods
= 고정효과추정법 fixed effect estimation
패널데이터란 복수의 집단에 대해 복수의 기간에 걸쳐 수집한 데이터이며,
평행 트렌드 가정이 반드시 필요하다. paralled trend assumption
: 만약 개입이 일어나지 않았다면 개입집단의 평균과 비교집단의 평균값은 평행한 추이를 보인다.
이러한 데이터 분석툴이 널리 활용되기 위해서는
첫째, 기업, 정부와 데이터 분석 전문가의 협력관계
둘째, 데이터 분석자가 데이터에 접근할 길을 넓힐 것
그럼에도 불구하고, 데이터 분석은 불완전하다.
데이터 자체가 불량이면 무용지물이며,
분석 결과가 분석 대상 외에도 적용 가능한가?라는 외적타당성 문제를 늘 고려해야한다. (외적 타당성과 내적 타당성)
출판 편향이나 협력 관계 편향이라는 문제도 있다. 따라서 관련자의 뜻에 맞지 않는 결과는 세상에 나오기 어렵다.
개입집단에 대한 개입이 비교집단에도 파급효과를 미칠 때는 주의가 필요하다.
-
여기까지 주 내용을 요약해보았다.
통계학적인 수식. 더 전문적인 내용을 알고 싶다면 좀 더 난이도있는 책을 찾아야 할 것이고, 빅데이터나 데이터 분석에 흥미를 갖고 개략적인 지식을 습득하기에 좋은 입문서다.
3
박혜원님의 인생책은?
더 보기