AB test样本量计算器的具体使用方法
ab test样本计算器的使用
在实际的AB test中一般都是直接使用一些AB test计算工具求解的,一方面是公式太复杂记不住,计算也比较耗费时间,另一方面在老板眼里计算器计算反而比手动计算更不容易出错
接下来以用的比较多的evanmiller计算器详细介绍一下其对应的用法
网址为:https://www.evanmiller.org/ab-testing/sample-size.html
主界面如下:
这个计算器有4个输入。有了这四个输入,就一定能够算出所需样本量,也就是中间的Sample Size输出的结果。这四个输入分别是:
∙ \bullet ∙ Statistical power
∙ \bullet ∙ Significance level
∙ \bullet ∙ Baseline rate
∙ \bullet ∙ Minimum detectable effect
其中Statistical power和Significance level一般都是80%和5%不用修改
接下来我们看看每个输入是什么意思。
Statistical Power和Significance Level
A/B实验的基础是假设检验。首先我们会给出两个假设:
原假设(Null hypothesis, 也叫 H 0 H_0 H0):我们希望通过实验结果推翻的假设。在ABtest中原假设可以表述为“红色按钮和绿色按钮的点击率一样”等。
备择假设(Alternative hypothesis, 也叫H_1):我们希望通过实验结果验证的假设。可以表述为“红色按钮和绿色按钮的点击率不同”等。
所以列出现实中所有的可能性和我们采取的结论,可以得到如下几种结果:
情况1:点击率实际无区别(H0正确),却认为有区别
由于判断错了,我们把这类错误叫做第一类错误(Type I error),我们把第一类错误出现的概率用 α α α表示。这个 α α α,就是Significance Level,中文称为显著性水平。
在商业背景下,第一类错误意味着新的产品对业务其实没有提升,我们却错误的认为有提升。这样的决定,不仅浪费了公司的资源,而且部分人得到了不应得的奖励。
在非商业背景下,第一类错误往往更加可怕。比如好人被判刑进监狱,健康人被误诊送去化疗。
所以,在做A/B测试的时候,我们希望第一类错误越低越好。一般商业实验中,我们把 α α α人为定一个上限,一般是5%。也就是说,在做实验的时候,我们都会保证第一类错误出现的概率永远不超过5%。
情况2:点击率无区别(H0正确),认为没区别。
这种就是判断正确,结论和实际一致
情况3:点击率有区别(H1正确),认为有区别。
这种也是判断正确,结论和实际一致。我们把做出这类正确判断的概率叫做Statistical Power。中文称为功效
要记得,我们的做实验的根本目的是为了检测出红色按钮和绿色按钮的点击率差别。所以如果power低,即使新产品真的有效果,通过实验也不能检测出来。所以一般Power要求在80%以上。
情况4:点击率有区别(H1正确),认为没区别。
这也是一个错误的判断。这类错误叫做第二类错误(Type II error),用 β β β表示。根据条件概率的定义,可以计算出 β = 1 − p o w e r β = 1 - power β=1−power。
所以根据惯例, Statistical Power设为5%,Significance Level设为80%,不需要修改
Baseline Rate
这个看的是在实验开始之前,对照组本身的表现情况。在我们的实验里,baseline就是红色按钮的历史点击率。从直观上我们可以这么理解baseline:
当baseline很大(接近1)或者很小(接近0)的时候,实验更容易检测出差别(power变大),如果保持power不变,那么所需要的样本数量变小。举个例子,假设红色按钮的点击率是0%。那么,哪怕绿色按钮只有一个用户点击,相对于对照组来说也是挺大的提升。所以即便是微小的变化,实验也会更容易地检测出来。
同理,当baseline居中(在0.5附近徘徊)的时候,实验的power会变小。
在工作中,这个参数完全是历史数据决定的。在我们的实验中,我们假定,实验开始之前的历史点击率是15%。所以Baseline Rate=15%
Minimum Detectable Effect
顾名思义,这个参数衡量了我们对实验的判断精确度的最低要求。
参数越大(比如10%),说明我们期望实验能够检测出10%的差别即可。检测这么大的差别当然比较容易(power变大),所以保持power不变的情况下,所需要的样本量会变小。
参数越小(比如1%),说明我们希望实验可以有能力检测出1%的细微差别。检测细微的差别当然更加困难(power变小),所以如果要保持power不变的话,需要的样本量会增加。
在工作中,这个参数的选定往往需要和业务方一起拍板或者根据业务情况确定。在我们的实验中,我们选定Minimum Detectable Effect=5%。这意味着,如果绿色按钮真的提高了点击率5个百分点以上,我们希望实验能够有足够把握检测出这个差别。如果低于5个百分点,我们会觉得这个差别对产品的改进意义不大(可能是因为点击率不是核心指标),能不能检测出来也就无所谓了。
最后还有一个Absolute与Relative的选项,分别代表绝对比例变化和相对比例变化,影响的也是对应的精度。当选择Baseline Rate为20%, Minimum Detectable Effect为5%时,对应的检测精度区间就是15-25%和19-21%.同样的,精度区间越大的所需样本量就越少。

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)