第二章：数据分析师的一天

浊酒南街

814人浏览 · 2024-06-06 09:51:36

浊酒南街 · 2024-06-06 09:51:36 发布

前言

老板来了！！！
来来来，安静一下，我们开个简短的会议啊。
……
……
那么，问题来了，通过这次推广营销，
拉回了多少流失用户？他们的贡献额是多少？
ROI是多少？下一次营销预估会激活多少流失用户？

小白的反应？？？
额？赶紧记一下！
• 什么是流失用户？
• 贡献额的计算口径是什么？
• ROI是什么鬼？
• 流失用户的激活数据咋预测啊？
我感觉已经陷入了一个大坑！！怎么办怎么办？谁来救救我？

老司机来了~~~

就是简单的分析和建模问题！
分析现状：

根据流失的定义，查询流失用户的回购情况；
流失用户的合格订单就是贡献额；
简单测算一下贡献额与营销成本，即可得到ROI；建模预测：
基于已有的营销数据，构造流失用户激活模型即可；

一、 SEMMA步骤解析

S：Sample（搜集数据）

基于需求，有针对性的搜集可以解决问题的数据。常用的搜集手段有：
• 问卷调查
• 数据库查询
• 实验室试验
• 仪器设备的记录
例如：影响收入的因素有哪些？如何预测他的收入范围呢？

E：Explore（数据探索）

通过数据探索，以求对数据的进一步了解。常用的探索方向有：
• 离散变量的分布比例
• 连续变量的分布形态
• 数据的异常和缺失
• 特征选择
例如：各变量的缺失状态？统计描述？数据分布形态？

M：Modify（数据修正）

数据修正，便于下一步的分析和建模。常用的修正方法有：
• 数据类型的转换
• 数据的一致性处理
• 异常值和缺失值的处理
• 数据形态的转换
例如：各变量中的缺失数据该如何处理？离散变量如何数值化？

M：Model（数据建模）

数据建模，侧重于未知事件的预测。常用的模型有：
• 有监督的预测性模型（如回归、决策树、KNN等）
• 有监督的判别性模型（如Logistic、贝叶斯、集成算法等）
• 无监督模型（如Kmeans聚类、层次聚类、密度聚类等）
• 半监督模型（如关联规则等）
例如：如何基于调查数据，预测用户的收入水平？