阅读之前看这里👉:博主是正在进行数据分析师求职的一员,博客记录的是在学习和求职过程中一些总结,也希望和大家一起进步,在记录之时,未免存在很多疏漏和不全,如有问题,还请私聊博主指正。
博客地址:天阑之蓝的博客,学习过程中不免有困难和迷茫,希望大家都能在这学习的过程中肯定自己,超越自己,最终创造自己。

关于假设检验的基础和数学统计知识看这里数据分析面试【统计学】-----假设检验知识点归纳 ,本篇文章主要是实际的应用和案例分析。

1.AB测试的三种应用场景

  • UI选取:新增用户进入的时候建议核心功能的按钮换成绿色
  • 运营活动:建议对过去30天支付宝未活跃,短期画像是理财的老用户,推送理财优惠券
  • 功能添加:建议发布新版本增加短视频功能

在做AB测试的时候这三种场景有什么不同:

  • UI选取: 实验组和对照组一般是流量均衡
  • 运营活动:实验组95%流量,对照组5%流量 刺激用户
  • 功能添加:实验中5%流量,对照组95%流量 验证功能

2.AB测试的流程

主要流程如下:
在这里插入图片描述
关于在整个测试流程中的问题

  • 设定目标
    实验组和对照组只有一个变量不一样,其它要一样
    最终通过哪些指标来评估效果
  • 流量分配
    样本量究竟选取多少合适
    怎么判断实验组和对照组的无差异性
  • 数据分析
    测试的时间多久比较合适
    怎么判断实验组提升的显著性
  • 输出结论
    怎么去输出结论

设定目标

类型 建议 实验组 对照组 观察指标
设计 新增用户进入的时候建议核心功能边上增加两个字"点击" 点击 空白 点击率、留存率
运营 建议对过去30天支付宝未活跃,短期画像是理财的老用户,推送理财优惠券 推送 不推送 流失率、触达率、点击率、ROI
产品 建议发布新版本增加短视频功能 有短视频功能 无短视频功能 渗透率、功能留存率、大盘留存率、人均时长、卸载率

只有一个变量,观察指标要确定

流量分配:最少样本量

案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,问最少需要多少样本量。

理论上:样本越多越好,当样本量很少的时候,容易造成试验结果的不稳定。
工作上:样本量越少越好,流量往往都是很有限的,最重要的是试验成本不能太高。

流量太大有问题:试验成本太高

具体的可以通过各方面情况进行评估,还有一个快捷的方式:
通过 https://www.evanmiller.org/ab-testing/sample-size.html 这个网站,确定当前的基准率,以及想要提升的变化率,便可得到预估的实验最少样本量。

如下图所示:
在这里插入图片描述
我们经过计算,当前留存率为45%,提升0.2%,最少需要样本量为97.2万左右。

同时需要设定检验效能和显著性水平,具体概念可看之前的文章定义。
在这里插入图片描述

检验情形 原假设成立 原假设不成立
接受原假设 正确 第二类错误 β \beta β
拒绝原假设 第一类错误 α \alpha α 正确

流量分配:样本分配质量

案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,最终也上线了一周的数据,发现实验组与对照组留存率一直差不多(或者提升太多),怀疑是不是实验组和对照组本身就有差异。

这种情况下:测试之前应该要做一个AA测试

实验组:10w
对照1组:10w
对照2组:10w

通过对比对照1组和对照2组的留存率指标看流量分配是否有问题。

数据分析:实验天数

案例:某客户端当前大盘次日留存率45%,最近决定准备上线一个直播功能,预估至少提升0.2%留存率,每天只有10w的用户量可以做测试,问实验需要多久。

最少样本量为:98w,每天10w,至少需要10天
用户新鲜效应:3天
用户行为周期:周末与平时产品差异很大,需要覆盖一个周末

因此总共实验天数为10+3=13天,也就是测试大约2周

在这里插入图片描述

而且在上线后的实验组前几天数据是不可信的,需要长期观察。

数据分析:提升是否显著

案例:某客户端每天有5万用户进入,最近2级功能UI整改,目的是提升点击率,用户在第一次进入的时候被随机分配到A/B组,并后续持续为该组用户。

统计结果:实验组点击率0.02,对照组0.018
问题:现在业务方无法判断提升是否明显?

可以用z检验进行去计算,一般取95%置信区间,求出对应的z值,求出P值,对比其显著性。

在这里插入图片描述
这里1.637小于z值1.645,所以提升不明显。

数据结论

  • 即时实验效果不会也要及时同步数据,并及时排查原因
    例子:对过去30天薅羊毛特征未活跃用户,实验组通过短信方法发送优惠券,最好和对照组相比数据没有任何提升,排查发现是短信点击率非常低,后改为app弹窗效果明显提升。
  • 即时实验组功能指标好于对照组,仍然要评估两组的收入成本指标
    例子:某汽车页面实验组增加了一个点击按钮,对照组没有增加,实验组点击率显著优于对照组,但在最终交易额上,对照组更高,因此选择对照组方案。
  • 实验组和对照组可以按照用户基础属性来做拆分,看的更加全面
    例子:对于新用户往往产品接受度更高,实验组UI改版上转化率明显要提高;而对于老用户产品习惯已经养成,实验组UI改版上转化率反而下降。

—————————————————————————————————————————————————
博主码字不易,大家关注点个赞转发再走呗 ,您的三连是激发我创作的源动力^ - ^
在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐