[북 리뷰] 데이터분석의 힘 - 이토 고이치로
https://www.aladin.co.kr/shop/wproduct.aspx?ItemId=164975763
데이터 분석의 힘
2017년 출간 직후 일본 아마존 경제 1위, 제39회 산토리 학예상 및 제60회 닛케이경제도서문화상을 동시 수상하며 학계와 대중으로부터 뜨거운 관심을 받은, 빅데이터 시대를 위한 데이터 분석 입
www.aladin.co.kr
데이터 분석 입문자라면 한번씩 추천 받는 고전 책이다. 경제학자 및 데이터분석가로 저명한 일본의 이토 고이치로가 쓴 책으로, 어려운 전문 용어나 공식 없이 비교적 쉽게 읽을 수 있다. 또 사례 위주로 되어 있어 가독성도 좋다. 그치만 깊이가 깊은 편은 아니기 때문에 입문용으로 보면 좋을 것 같다.
개인적으로 세 가지가 흥미로웠다. 첫째는 상관 관계와 인과 관계를 혼동하면 안되며 '인과 관계를 밝히는 것'이 데이터 분석의 목적이면서도 동시에 어려운 부분이라는 점이다. 둘째는 인과 관계를 밝히는데 가장 좋은 방법은 A/B테스트인데 실제 세상에서 이를 수행하기 어려운 경우가 많으며 어려울 때 할 수 있는 자연 실험 기법에 'RD디자인, 집군분석, 패널데이터분석' 등이 있다는 점이다. 셋째는 실제 사례인데 우버에서 RD디자인을 통해 '택시 이용 요금을 얼마나 올리는지에 따라 이용률이 영향을 받는다'는 인과 관계를 발견했고, A/B테스트를 통해 최적의 가격 설계 전략을 세웠다는 점이다.
데이터 분석에 입문하는 분들, 데이터 분석이 어디에 쓰이는지 궁금하신 분들이 읽으면 특히 좋을 것 같다.
1. 데이터 분석을 통해 인과 관계를 밝히는 것은 어렵다.
- 올 여름 아이스크림 회사에서 광고를 늘렸는데 매출이 50% 성장했다. 매출이 높아진 게 광고 덕분일까?
- 해외 유학을 다녀온 친구들이 아닌 친구들에 비해 취업률이 높았다. 취업률을 높이기 위해 해외 유학을 장려해야 할까?
데이터 분석의 목적은 '어떤 요인(X)이 어떤 결과(Y)에 영향을 미쳤는가?', 즉 인과 관계를 밝히는 것이다. 그래야 회사 비즈니스 방향이나 정부 정책을 설계할 수 있다. 하지만 분석 과정에서 단순 '상관 관계'를 인과 관계로 자주 혼동하는데 이 경우 잘못된 의사결정으로 많은 자원을 낭비하게 된다. 사실 인과 관계를 밝히기 것은 대단히 어려운데 그 이유는 (1) 해당 요인이 아닌 다른 요인이 영향을 미쳤을 수 있기 때문이고 (2) 요인과 결과가 반대로 성립할 수도 있기 때문이다.
- (1999년 펜실베니아 연구사례) 2살 아동을 대상으로 한 실험 결과 '수면 중에 불을 켜고 있던 아이가 근시가 되는 비율이 높다'는 것을 알아냈다. 하지만 오하이오 연구팀은 이 것이 단순 상관 관계에 불과하다는 것을 밝혀냈다. 연구 결과 부모가 근시인 경우 아이가 자는 시간에 불을 켜고 있는 경우가 많았고, 부모가 근시일 경우 아이가 근시가 되기 쉬웠다. 즉, 인과 관계가 아니라 '부모가 근시라는 사실'이 '수면 중에 불을 켜는 비율'과 '아이가 근시가 될 비율'에 양쪽에 영향을 미친 것이다.
2. 인과 관계를 측정하는 가장 좋은 방법은 RCT(무작위 비교시행) = A/B테스트
- (오바마 후원금 사이트 사례) 후원금 모집사이트의 배경사진 + 대표문구 조합이 28개가 있었는데 최적 조합을 찾기 위해 RCT(무작위비교시행)을 하였고, 결국 최적 조합 노출을 통해 약 6천만 달러의 후원금을 더 모을 수 있었다.
인과 관계를 밝히는 가장 좋은 방법은 RCT(무작위 비교시행)이다. 전체를 무작위로 두 집단으로 나누면 통계적으로 동질의 집단이 된다(단순무작위배정, Simple Randomization). 이 상태에서 개입 집단에만 요인을 바꾸어 적용한 뒤 결과를 분석하면 인과 관계를 측정할 수 있다. 이 때 비교 집단이 반드시 있어야 하고, 각 집단에 충분한 표본수가 있어야 한다.
RCT의 단점은 데이터 수집 및 실험 세팅에 비용, 시간, 노력이 많이 들어가고 각 기관, 부서간 협력이 필요하다는 점이다.
3. RCT가 어려울 때 필요한 자연 실험 방법 (1) RD 디자인
- 일본 정부에서는 의료비 재정 부담을 줄이기 위해 본인부담금을 얼마까지 낮춰야 할까?
RCT 적용이 현실적으로 어려울 때는 자연 실험 방법을 적용할 수 있다. 특히 이 사례에서는 경계선 근처에서 일어나는 변화를 활용해 인과 관계를 밝히는 RD 디자인 기법을 활용했다. 기존 일본 의료비 제도에는 '70세'가 넘어가면 의료비 본인 부담금이 30% → 10%로 절감되었다. 연령별 의료서비스 이용률을 살펴본 결과 70세 경계에서 비연속적으로 높아지는 것을 볼 수 있었다. 다른 취업률, 노동시간, 수입 등 변수를 확인해보았을 때 비연속적인 변화가 없었기 때문에 본인 부담율과 의료 재정 지출 간의 인과 관계를 밝힐 수 있었다.
RD디자인의 단점은 인과 관계가 될 수 있는 근거를 제공할 수 있지만 실제로 성립하는 것을 입증할 수는 없다. 또 전체가 아닌 경계선 인근의 데이터에 대한 인과 관계만 밝힐 수 있다.
4. RCT가 어려울 때 필요한 자연 실험 기법 (2) 집군 분석
- 자동차 무게에 따라 연비를 규제하는 정책을 도입했는데 도입 전과 비교해 자동차의 평균 무게가 늘어났다. 정말 정책이 자동차 무게에 영향을 주었을까?
일본의 연비 규제 정책은 자동차 무게가 올라감에 따라 계단식으로 규제가 완화되는 구조였다. RD디자인과 달리 계단식 변화를 이용해 인과 관계를 밝히는 집군 분석을 활용했다. 자동차 무게를 X축으로 보았을 때 계단의 경계마다 집적이 일어나는 그래프가 그려졌다. 다른 요인들은 이러한 집적이 발생하지 않았다. 즉 일부러 무게를 조금 올려서 완화된 연비 규제를 받고 있다는 인과 관계를 발견했다.
집군 분석의 단점은 RD디자인과 마찬가지로 인과 관계가 될 수 있는 근거를 제공할 수 있지만 실제로 성립하는 것을 입증할 수는 없다. 또 전체가 아닌 계단 인근의 집적된 대상에 대해서만 인과 관계만 밝힐 수 있다.
5. 적절한 경계선이 없을 때 필요한 자연 실험 기법 (3) 패널데이터 분석
- 유럽의 인접한 국가 사이에 소득세율 차이가 이민에 영향을 줄까?
덴마크는 1991년 외국 노동자를 유입하기 위해 저임금노동자의 소득세율을 낮췄고 실제 그 이후 이민자가 증가했다. 복수의 그룹에 대한 복수의 기간 데이터가 존재했기 때문에 패널데이터 분석을 활용했다. 세율 혜택을 받은 계층과 못 받은 계층의 이민자 수 추이를 살펴본 결과, 정책 변경 전에는 '평행 트렌드 가정'이 성립되었고, 정책 변경 후에는 개입 집단의 이민자 수가 크게 증가했다. 때문에 인과 관계를 발견했다. 참고로 평행 트렌드 가정은 '개입 집단과 비교 집단 간 평균값이 평행한 추이를 보이기 때문에 개입이 일어나지 않았다면 여전히 평행한 트렌드를 보일 것이라는 가정'이며 패널데이터 분석에서 필수적인 가정이다.
미국에서 연비가 낮은 차를 높은 차로 교체하면 보상금을 주는 '중고차 보상 제도'를 시행하였는데 '패널데이터 기법'을 활용하여 분석한 결과, 일시적인 수요가 증가했을 뿐 인과 관계가 없다는 결과를 도출했다.
패널데이터 분석의 단점은 RD디자인과 마찬가지로 인과 관계가 될 수 있는 근거를 제공할 수 있지만 실제로 성립하는 것을 입증할 수는 없다. 또 평행 트렌드 가정은 매우 까다로운 가정이며 실제 성립하지 않는 경우도 많다.
6. 그 밖의 분석 사례
- (RCT 분석) 구글에서는 검색 결과의 링크를 나타내는 파란색 중 '최고의 파란색'을 발견하기 위해 41종의 파란색을 RCT 분석하였다.
- (RCT 분석) 미국 마트에서 세금이 포함된 가격을 노출하였더니 매출이 8% 하락하였다.
- (RD/RCT 분석) 우버는 운전자 수와 이용자 수에 따라 택시 이용 요금이 달라지는데, 요금 상승율에 비해 실제 이용율 변화를 분석하여 최적의 가격 설계 전략을 세울 수 있었다.