数据分析咖哥十话——实践篇——卷三:留存
聚焦于留存》如何提高LTV》如何开发出优质产品》如何提升企业长期核心价值聚焦于流失》用户为何不在使用产品》如何挽回用户》运营策略评估流失分为:1)响应式流失:对特定的负面事件或体验做出反应,突然停止之前使用的产品或服务2)预期式流失:是渐进的、缓慢发生的、无特定触发因素驱动的流失降低流失:重视用户的感受、和用户保持沟通、与用户维系好关系(用户思维)1)我们通过Lifelines库,为分析了目前江里
目录
6.4.3 使用Kaplan-Meier生存模型输出留存曲线
阶段 | 任务 |
关键指 标 |
留存阶段 | 让用户持续使用产品形成粘性 | 用户活跃度 留存率 |
第六话、通过行为分析提高留存
6.1 如何留住老用户?
用户流失代表着LTV 降低。因此需要找到流失原因,什么类型用户容易流失、流失行为预警
6.2 留存与流失
6.2.1 老用户留存很重要
新客的获客成本高,且老用户留存提高,则LTV大大增加
关键节点:激活用户;让用户持续使用产品,形成粘性;持续提升产品价值
6.2.2 流失率的定义与流失原因
聚焦于留存》如何提高LTV》如何开发出优质产品》如何提升企业长期核心价值
聚焦于流失》用户为何不在使用产品》如何挽回用户》运营策略评估
流失分为:
1)响应式流失:对特定的负面事件或体验做出反应,突然停止之前使用的产品或服务
2)预期式流失:是渐进的、缓慢发生的、无特定触发因素驱动的流失
降低流失:重视用户的感受、和用户保持沟通、与用户维系好关系(用户思维)
6.2.3 数据驱动下的用户管理
流失管理的核心在于能够识别流失预警信号
1、要搜集的数据
包括日/月消费次数、日/月活跃人数、日/月消费人数、日/月消费人数占比、日/月人均消费次数等
2、如何基于数据分析流失
- 采用机器学习的方法,根据历史数据预测一个用户的流失风险是高还是低
- 使用决策树或者聚类工具将用户群体按照不同的行为特征进行划分,从而识别出流失风险高的用户群体
- 用户流失触发因素的研究也比较重要,其中包含内部触发因素(产品问题)和外部触发因素(竞对降价、抢用户)
6.3 工具:生存分析工具包和逻辑回归算法
6.3.1 用生命线库Lifelines进行留存分析
生命线库中的Cox模型可以给出不同用户行为和产品特征对流失率的影响
6.3.2 用逻辑回归算法预测用户流失
适用于分类问题(离散变量)
from sklearn.datasets import load_iris #导入鸢尾花数据集
from sklearn.linear_model import LogisticRegression #导入逻辑回归模型
X, y = load_iris(return_X_y=True) #构建鸢尾花数据集
model = LogisticRegression(random_state=0) #构建逻辑回归模型
model.fit(X, y) #进行模型的拟合
model.predict(X[:2, :]) #模型的预测结果
model.predict_proba(X[:2, :]) #模型预测的概率值
model.score(X, y) #模型的分数 0.96
6.4 实战:分析用户的留存和流失
6.4.1 梳理思路
1)通过生存分析工具包显示用户的流失情况,以及各指标和流失率的相关性;
2)通过逻辑回归的机器学习方法将用户分类,找出高流失风险的用户。
6.4.2 数据导入和数据清洗
6.4.3 使用Kaplan-Meier生存模型输出留存曲线
“入会月数”、“已停付会费” 与 存活时间关系密切
导入生命线库并通过其中的Kaplan-Meier模型来查看普通用户的生存率。这个模型可以拟合用户数据,并绘制出含置信区间[2]的用户留存曲线
将“入会月数”、“已停付会费”导入到模型中
结论:在20个月后,老用户继续维持会员状态的概率超过80%;而在70个月之后,也就是注册为会员5年之后,老用户的留存率仍然在50%以上
因此,老用户的留存做的不错
6.4.4 通过留存曲线比较各因子对流失率的影响
有了这个函数,就可以绘制不同用户细分类别的留存曲线,并进行对比
结论:如果选择就餐时支付会费,那么留存会大大降低,造成大幅度流失;手工转账也会造成一定的会员流失;较好的支付方式是 微信自动扣款和花呗付款
结论:月卡留存降低的最快,其次是年卡,双年卡的留存最好,因此要让客户办长期卡
结论:趋势基本保持一致,表明性别对用户留存的影响并不是十分明显
6.4.5 使用Cox危害系数模型分析流失影响因子
知道了各类用户的留存情况,下一步分析不同指标对用户流失的影响有多大
使用Cox危害系数模型 看 因子对留存的影响。
使用该模型之前,需要把每个字段都规范成Cox危害系数模型可以读取的格式
使用pd.get_dummies()方法把多类别字段分解为多个二元类别字段,即哑变量
如:会员卡类型拆分成(会员卡_年卡、会员卡_月卡,会员卡_双年卡)
6.4.6 通过机器学习方法预测用户流失率
根据老用户的数据,创建并拟合机器学习模型对新用户是否会流失进行推测
机器学习模型能够准确判定某用户是否具有高流失的风险,从而确定该用户是否需要被重点关注
监督学习需要构建 特征集各标签集
6.5 总结
1)我们通过Lifelines库,为分析了目前江里捞用户留存的现状,以及未来需要注意的重点。
2)而逻辑回归模型则告诉运营,哪些客户是他们的运营团队急需关注的对象
在进一步细化模型后,则需要详细分析老用户的留存原因,之后采取策略引导用户的行为习惯,以将用户价值最大化。
具体来说,可以采取以下3个引导策略:
第一,要尽可能说服用户购买长期会员卡
第二,对不同用户群体制订不同的留存策略。例如,对于有小孩的用户,可以增加儿童套餐,因为孩子的要求父母往往不会拒绝;另外,高收入的用户群体一般也不会轻易放弃会员资格。因为他们的时间成本很高,一般不会为会费而烦恼,可以为这类用户设计出更高端的会员类型
第三,选择便捷的付款方式,要确保用户缴纳会费时的默认选项是“自动付款”。否则,对很多怕麻烦的人来说,烦琐的会费支付方式会成为一种负担。
此外,
进一步行动,还有以下思路:
第一,进一步完善用户价值体系(参见第二话中的RFM细分)和留存模型
第二,建立灵活的运营流程,制订不同的留存策略和关系维系体系
第三,确保所有增加营收的项目都以提高用户忠诚度为基础
第四,设计一个提前预警系统,用来指导运营团队通过快速行动留住即将流失的老用户。
第七话、从内容分析发现价值
提高留存率的核心:持续输出更好的内容和产品
7.1 什么样的视频会成为爆款?
视频类型,粉丝基数,特殊词条?
根据数据集中字段进行分析
7.2 产品分析
7.2.1 产品分析与pdd案例
产品分析可以做:成本分析、职能分析(要实现什么功能)、功能分析(如何实现)、性能分析、观感分析、用户体验分析、安全与隐私分析、风险评估分析
7.2.2 产品热度的时间序列曲线
时间序列曲线 + 内部销售数据,可以通过回归、AR、MA、ARMA、ARIMA等时序模型进行预测
7.2.3 产品销售的总量和增速矩阵
将上面的矩阵中总量小、增速快的产品定义为新型品类。这类产品往往是互联网电商公司需要关注的焦点,因为它们有潜力实现更多的增长。
7.2.4 与内容相关的典型流量指标
1)流量数量指标:PV、UV、BR(跳出率)、CVR(转化率)
2)流量质量指标:访问深度(人均内容浏览量)、停留时长、点赞数、转发量
3)内容质量指标:消费用户占比、消费用户访问量占比、消费用户人均访问量
7.3 工具:自然语言处理
分析网站中视频评论等文字的情感属性,如每一类视频是好评多还是差评多
7.3.1 自然语言处理中的基本概念
让机器理解人类语言,NLP。
7.4 实战:某网站视频流量、热度和情感属性分析
df_video.groupby(['分类','在榜天数']).count()['视频ID'].unstack().clip(upper=300)
unstack():
clip(lower=100,upper=300):
将超过300的元素都设置为300,小于100的元素都设置为100

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐
所有评论(0)