그로스 해킹, 어디까지 해봤니? #7: 데이터의 유의미 찾기

그로스 해킹이 주목을 받는 이유 중 하나는 결과의 계량적인 측정이 가능하기 때문이라고 생각한다. 개인의 주관적인 의견이 아닌, 객관적인 데이터를 통해 의사결정을 할 수 있기에 ‘말랑한 것’을 질색하는 개발자와 테크회사에서 자신의 가치를 증명해야 했던 마케터 모두에게 매력적으로 다가온 것이다. 하지만 데이터를 제대로 알지 못하는 사람에겐 그로스 해킹의 계량적 방법론이 독으로 다가올 수 있다.

다음과 같은 예를 들어보자. 신제품 출시를 앞두고 두 가지 옵션을 가지고 실험을 하였는데 다음과 같은 결과가 나왔다. 어느 옵션으로 웹사이트 디자인을 밀고 가야할까?

ab_test_example

정답은… it depends (= 케바케) 이다. 만약 표본 크기가 백만 명 이었다면 B 실험군이 대박이라고 결론지을 수 있을 것이다. 하지만 만약 실험을 실행한 표본의 크기가 30명이었다면? 이 경우의 답은 ’모른다, 혹은 차이가 없다’이다. 오차 범위가 엄청나게 크기 때문이다. (30명의 표본이라는 것은 즉 A는 5명, 그리고 B는 10명이라는 절대적으로 적은 수의 사람이 선택을 했다는 것이다). 이런 작은 표본을 대상으로 한 실험으로 도출한 결과를 무조건적으로 맹신하여 사용한다면 엄청나게 큰 우를 범할 수 있는 위험에 빠지게 된다.

이를 방지하기 위해 반드시 숙지해야 할 개념 둘이 있는데 하나는 ‘확률적 유의미’, 그리고 다른 하나는 ‘실용적 유의미’이다.

확률적 유의미 (statistical significance)

선거 개표 방송이나 닐슨의 시청률 조사 등에서 ’95%의 신뢰도, 표준 오차 ± 몇%’라는 문구를 본 적이 있을 것이다. 표본을 통해 산출한 예상은 100% 정확할 수는 없기에, 확실성의 정도를 확률로 표현하는 것이다. 그로스 해킹도 마찬가지이다. 새로운 실험에서 관찰된 차이가 실제 적용했을 때 100% 정확히 맞아 떨어진다고 보장할 수 없다. 하지만 주어진 범위 내의 차이가 실제에서도 일어날 확률은 계산해 낼 수는 있다. 위 예에서 30명 표본의 결과를 사용할 수 없는 이유는 95%의 신뢰도를 만족시키는 범위가 30% ± 엄청 큰 오차% 이기 때문이다.

확률적 유의미를 가지기 위해서는 충분히 큰 표본을 사용하거나, 실험 기간을 더 오래 하거나, 아니면 훨씬 더 큰 차이를 관측할 수 있는 실험을 선택해야 한다. 대부분의 경우는 더 큰 표본의 실험을 감행하는 것으로 확률적 유의미를 달성한다.

실용적 유의미 (practical significance)

확률적 유의미는 어느 두 관측의 차이가 실제로 재현될 가능성을 알려주는 것이라면 실용적 유의미는 ‘사업가’로써의 그로스 해커의 측면이 강조되는 개념이다. 실용적 유의미란, 실제로 관측된 차이가 우리에게 실질적인 도움이 되는 것인지를 판별하는 것이다.

예를 들어 어느 멋진 그로스 해킹으로 고객 변환율이 0.001% 늘었다고 가정하자. 확률적 유의미도 충분히 있다고 하자. 하지만 당신의 웹사이트가 페이스북이나 구글이 아닌 이상, 0.001%의 증가가 회사의 사업에 의미있게 기여하는 결과라고 할 수 있을까? 이런 경우의 99.9%는 쓸데 없는 짓 하느냐고 귀한 시간과 돈, 그리고 분석 자원을 사용한 것이라고 볼 수 있다. 😭

이런 ’삽질’의 위험을 최소화 하려면 그로스 해킹 가설에 실용적 유의미를 포함하여 구체적으로 작성해야 할 필요가 있다. 예를 들어:

practical_sig_ex

예전 전략 컨설턴트 시절, 내 상사가 강조했던 것이 있다. “데이터는 주관적인 것이야. 변호사들이 같은 증거물을 가지고 서로 자신들의 주장이 옳다고 말하는 것 처럼, 데이터도 해석하는 상황, 의도, 그리고 사람들에 따라 다르게 쓰여지기 마련이지.” 데이터의 이해도가 부족할수록, 분석에 대한 깊이가 얕을수록 이런 데이터의 ’주관적인 힘’에 이끌려 잘못된 결정을 내릴 위험이 있다. (심지어 이런 결정을 내리면서도 ’나는 데이터 주도적 의사결정을 하지. 음하하!’ 라고 생각할지도).

그로스 하면서 데알못 되지 말자.

stat_practical_sig

* 참고: 그로스 해커들이 통계 전문가일 필요는 없기에 위의 확률적 유의미의 개념을 비약적으로 단순화 시켰는데, 더 과학적으로 그로스 해킹을 접근하고 싶은 스타트업은 데이터 과학자 및 통계학 지식이 있는 애널리스트 조직을 두는 것을 추천한다. 특히, 최근 p-value의 남용 논란 등 이쪽 분야가 시끄러운 시기엔 더더욱.

이미지] https://goo.gl/6Qiu6t

.

AndrewAhnCo_sub_button