출처 : "데이터와 실험을 통해 성장하는 서비스를 만드는 방법(양승화님)" 강의 바로가기 -> https://inf.run/TaJi
그로스해킹 - 데이터와 실험을 통해 성장하는 서비스를 만드는 방법 - 인프런 | 강의
데이터를 기반으로 정의한 핵심지표를 바탕으로, 실험을 통해 배움을 얻고, 이를 빠르게 반복하면서 서비스를 성장시키는 것. 그로스해킹의 기본을 다루는 101 강의입니다., 🌱 데이터와 실험을
www.inflearn.com
이전 포스팅 : 그로스 조직과 문화
그로스 조직과 문화
출처 : "데이터와 실험을 통해 성장하는 서비스를 만드는 방법(양승화님)" 강의 바로가기 -> https://inf.run/TaJi 그로스해킹 - 데이터와 실험을 통해 성장하는 서비스를 만드는 방법 - 인프런 | 강의
kkujun.tistory.com
지난 시간에는 그로스 조직과 문화에 대해 알아보았다. 이번 시간에는 AB테스트 시 유의할 점에 대해 알아보겠다.
AB테스트란 '변수 사이의 인과관계를 확인하기 위한 통계적 가설 검정 방법론'으로 쉽게 말해 기존 A안과 새롭게 개선한 B안을 비교하여 얼마만큼의 개선효과가 있는지를 확인하는 방법이다. 대표적인 사례로 오바마 후원 모금 사이트가 있는데 아래 이미지와 같이 고객에 따라 다른 화면을 노출하여 Conversion Rate을 엄청나게 높였다고 한다.
AB테스트를 설계할 때는 가설, 실험집단, 독립/종속변수, 샘플사이즈, 실험기간 등을 고려해야 한다. 먼저 '어떤 것을 확인하고 싶은지' 가설을 설정해야 하는데 '어떤 변수를 바꾸어(독립변수) 어떤 변화량을 이끌어낼 것이며(종속변수) 어느 정도 수준을 목표로 하는지'에 대해 구체적으로 세워야 한다. 통제집단은 독립변수를 변경하지 않은 대조군을 의미하며 실험집단과의 비교에 목적이 있다. 통제변수는 독립변수 외 나머지 변수를 통제하는 것으로 실험에 '우연'이 개입할 여지를 줄이는데 목적이 있다. 샘플사이즈와 실험기간은 통계적으로 통용되는 기준이 있기 떄문에 이를 준용하면 쉽다.
AB테스트는 본래 동시에 진행하는 것이 원칙이나 여건 상 '순차 테스트'가 될 수도 있다. 이때는 외부효과가 개입될 가능성이 높기 때문에 결과를 해석할 때 샘플링 오류에 빠지지 않았는지 꼼꼼하게 검증해야 하며 'A-B-A 테스트'를 하는 것도 좋은 방법이다(마지막에 A 테스트를 한번 더 하는 방법). 샘플링은 랜덤 추출 방식이 좋지만 특정 변수를 통제하고 추출할 경우 꼭 검증이 필요하다. 예를 들어 편의 상 전화번호가 홀수인 그룹과 짝수인 그룹으로 나눠 실험할 때 각 그룹의 구매력이 크게 차이날 수도 있다.
실험 결과를 해석할 때는 통계적인 검정 방법을 활용하는데 종속변수가 이산형(연속된 숫자)일 경우는 T검정, 범주형(연속된 숫자X)일 경우에는 카이제곱 검정을 주로 활용한다. AB테스트 툴이나 파이썬을 이용해도 되지만 웹페이지를 통해 쉽게 구할 수도 있다(http://www.abtestcalculator.com/). 분석 결과를 이해하려면 'P value, 신뢰도, 신뢰구간'에 대한 기본적인 이해가 필요하다.
먼저 'A안이 B안 보다 더 높은지'를 통계적으로 분석할 때는 먼저 'A안과 B안이 차이가 없다'라는 귀무가설을 세우고 이 가설을 '기각할 확률'인 P-Value가 얼마나 낮은지를 계산하여 검증한다. T검정 혹은 카이제곱 검정을 통해 계산한 P-Value가 만약 0.05 미만이면 '95% 신뢰도에서 통계적으로 유의한 차이가 있다'라고 해석하는데 여기서 신뢰구간이 등장한다. 우리가 표본을 통해 모집단의 특성을 파악할 때 표본평균을 통해 모평균을 추정한다. 이때 표본평균에 '표준편차(평균오차 정도로 이해)'를 고려한 범위를 신뢰구간이라고 하며. 신뢰도 95%의 의미는 '표본을 100회 뽑았을 때 100개의 신뢰구간 중 모평균을 포함하는 횟수가 95회이다' 라는 뜻이다. 즉 그만큼 표본이 모집단을 잘 대표하기 때문에 통계검정 결과를 신뢰할 수 있다는 뜻이다.
효과 크기도 매우 중요한데 '이 실험의 결과가 우리 비즈니스에 얼마 정도의 가치가 있는지'를 나타낸다. 예를 들면 특정 AB테스트를 통해 전환율이 0.1% 개선되는 효과를 검증하였는데, 만약 우리 서비스가 DAU 1,000명 - ARPPU 10,000원의 가치를 가지고 있다면 이 실험은 '1만원/일'의 효과를 낼 수 있는 것으로 해석할 수 있다. 이 정도 개선을 위해 개발 리소스를 투입하는 건 효과적인 의사결정이 아닐 것이다. 또 배너를 바꾸어 전환율이 10% 개선되는 효과를 검증했는데 만약 변경한 배너의 상품이 이전 상품에 비해 이익률이 낮은 상품이라면 이 또한 개선 효과가 크지 않을 것이다.
AB테스트 시의 샘플 사이즈가 얼마나 필요한지를 알아야 실험기간을 세팅할 수 있다. 샘플사이즈는 '통계적으로 유의미한 해석이 가능하기 위한 수준'으로 결정되며 웹사이트를 통해도 쉽게 계산할 수 있다. (http://www.evanmiller.org/ab-testing/sample-size.html)
마지막으로 몇 가지 참고사항이 있다. AB테스트 결과는 시간에 따라 변화하는 일이 자주 발생하기 때문에 시간 흐름에 따른 차이를 관찰해야 한다. 혹시 실험 기간 중에 버그/장애가 있었거나 새로운 기능이 출시했으면 결과가 달라질 수 있기 때문에 이를 잘 검증해야 한다. AB테스트 결과는 영원한 것이 아니며 계절/시장상황/취항변화/사용자층변화에 따라 얼마든지 달라질 수 있다. AB테스트는 주어진 조건에서 최적값을 찾는 문제이기 때문에 주어진 조건이 엄격할수록 비즈니스 임팩트는 작아질 수 밖에 없다.
'Growth Hacking' 카테고리의 다른 글
프로덕트 성장을 이해하는 간단한 방법, Quick Ratio (0) | 2021.12.22 |
---|---|
북극성지표(NSM) 또는 OMTM의 함정 (0) | 2021.12.20 |
OMTM과 OKR (0) | 2021.10.28 |
그로스해킹 지표를 활용할 때 주의할 점 (0) | 2021.10.26 |
Revenue와 Referral (AARRR퍼널 3탄) (0) | 2021.10.25 |