数据分析【实践】——AB测试的应用、案例及关键点

TIYI.DOT

7438人浏览 · 2020-08-19 10:53:31

TIYI.DOT · 2020-08-19 10:53:31 发布

阅读之前看这里👉：博主是正在进行数据分析师求职的一员，博客记录的是在学习和求职过程中一些总结，也希望和大家一起进步，在记录之时，未免存在很多疏漏和不全，如有问题，还请私聊博主指正。
博客地址：天阑之蓝的博客，学习过程中不免有困难和迷茫，希望大家都能在这学习的过程中肯定自己，超越自己，最终创造自己。

1.AB测试的三种应用场景

UI选取：新增用户进入的时候建议核心功能的按钮换成绿色
运营活动：建议对过去30天支付宝未活跃，短期画像是理财的老用户，推送理财优惠券
功能添加：建议发布新版本增加短视频功能

在做AB测试的时候这三种场景有什么不同：

UI选取：实验组和对照组一般是流量均衡
运营活动：实验组95%流量，对照组5%流量 刺激用户
功能添加：实验中5%流量，对照组95%流量 验证功能

2.AB测试的流程

主要流程如下：
在这里插入图片描述
关于在整个测试流程中的问题：

设定目标
实验组和对照组只有一个变量不一样，其它要一样
最终通过哪些指标来评估效果
流量分配
样本量究竟选取多少合适
怎么判断实验组和对照组的无差异性
数据分析
测试的时间多久比较合适
怎么判断实验组提升的显著性
输出结论
怎么去输出结论

设定目标

类型	建议	实验组	对照组	观察指标
设计	新增用户进入的时候建议核心功能边上增加两个字"点击"	点击	空白	点击率、留存率
运营	建议对过去30天支付宝未活跃，短期画像是理财的老用户，推送理财优惠券	推送	不推送	流失率、触达率、点击率、ROI
产品	建议发布新版本增加短视频功能	有短视频功能	无短视频功能	渗透率、功能留存率、大盘留存率、人均时长、卸载率

只有一个变量，观察指标要确定

流量分配：最少样本量

案例：某客户端当前大盘次日留存率45%，最近决定准备上线一个直播功能，预估至少提升0.2%留存率，问最少需要多少样本量。

理论上：样本越多越好，当样本量很少的时候，容易造成试验结果的不稳定。
工作上：样本量越少越好，流量往往都是很有限的，最重要的是试验成本不能太高。

流量太大有问题：试验成本太高

具体的可以通过各方面情况进行评估，还有一个快捷的方式：
通过 https://www.evanmiller.org/ab-testing/sample-size.html 这个网站，确定当前的基准率，以及想要提升的变化率，便可得到预估的实验最少样本量。

如下图所示：
在这里插入图片描述
我们经过计算，当前留存率为45%，提升0.2%，最少需要样本量为97.2万左右。

同时需要设定检验效能和显著性水平，具体概念可看之前的文章定义。
在这里插入图片描述

检验情形	原假设成立	原假设不成立
接受原假设	正确	第二类错误 $\beta$
拒绝原假设	第一类错误 $\alpha$	正确

流量分配：样本分配质量

案例：某客户端当前大盘次日留存率45%，最近决定准备上线一个直播功能，预估至少提升0.2%留存率，最终也上线了一周的数据，发现实验组与对照组留存率一直差不多(或者提升太多)，怀疑是不是实验组和对照组本身就有差异。

这种情况下：测试之前应该要做一个AA测试

实验组：10w
对照1组：10w
对照2组：10w

通过对比对照1组和对照2组的留存率指标看流量分配是否有问题。

数据分析：实验天数

案例：某客户端当前大盘次日留存率45%，最近决定准备上线一个直播功能，预估至少提升0.2%留存率，每天只有10w的用户量可以做测试，问实验需要多久。

最少样本量为：98w，每天10w，至少需要10天
用户新鲜效应：3天
用户行为周期：周末与平时产品差异很大，需要覆盖一个周末

因此总共实验天数为10+3=13天，也就是测试大约2周

在这里插入图片描述

而且在上线后的实验组前几天数据是不可信的，需要长期观察。

数据分析：提升是否显著

案例：某客户端每天有5万用户进入，最近2级功能UI整改，目的是提升点击率，用户在第一次进入的时候被随机分配到A/B组，并后续持续为该组用户。

统计结果：实验组点击率0.02，对照组0.018
问题：现在业务方无法判断提升是否明显？

可以用z检验进行去计算，一般取95%置信区间，求出对应的z值，求出P值，对比其显著性。

在这里插入图片描述
这里1.637小于z值1.645，所以提升不明显。

数据结论

即时实验效果不会也要及时同步数据，并及时排查原因
例子：对过去30天薅羊毛特征未活跃用户，实验组通过短信方法发送优惠券，最好和对照组相比数据没有任何提升，排查发现是短信点击率非常低，后改为app弹窗效果明显提升。
即时实验组功能指标好于对照组，仍然要评估两组的收入成本指标
例子：某汽车页面实验组增加了一个点击按钮，对照组没有增加，实验组点击率显著优于对照组，但在最终交易额上，对照组更高，因此选择对照组方案。
实验组和对照组可以按照用户基础属性来做拆分，看的更加全面
例子：对于新用户往往产品接受度更高，实验组UI改版上转化率明显要提高；而对于老用户产品习惯已经养成，实验组UI改版上转化率反而下降。

—————————————————————————————————————————————————
博主码字不易，大家关注点个赞转发再走呗，您的三连是激发我创作的源动力^ - ^
在这里插入图片描述

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

使用概率图路径规划的机器人路径规划研究Octave（Matlab代码实现）

针对复杂未知环境下传统机器人路径规划算法适应性差、避障稳定性弱、全局搜索效率低的问题，本文开展基于概率图的机器人路径规划方法研究。概率图路径规划依托概率路线图建模思想，通过环境随机采样、节点连通性构建、最优路径检索的核心逻辑，摆脱了传统算法对环境精准建模的依赖，具备强环境适配性与高运算效率。本文系统阐述概率图路径规划的核心理论、运行机制与技术优势，基于Octave仿真平台搭建多场景机器人运动规划仿