第二章:数据分析师的一天
目录
前言
老板来了!!!
来来来,安静一下,我们开个简短的会议啊。
……
……
那么,问题来了,通过这次推广营销,
拉回了多少流失用户?他们的贡献额是多少?
ROI是多少?下一次营销预估会激活多少流失用户?
小白的反应???
额?赶紧记一下!
• 什么是流失用户?
• 贡献额的计算口径是什么?
• ROI是什么鬼?
• 流失用户的激活数据咋预测啊?
我感觉已经陷入了一个大坑!!怎么办怎么办?谁来救救我?
老司机来了~~~
就是简单的分析和建模问题!
分析现状:
- 根据流失的定义,查询流失用户的回购情况;
- 流失用户的合格订单就是贡献额;
- 简单测算一下贡献额与营销成本,即可得到ROI;建模预测:
基于已有的营销数据,构造流失用户激活模型即可;
一、 SEMMA步骤解析
S:Sample(搜集数据)
基于需求,有针对性的搜集可以解决问题的数据。常用的搜集手段有:
• 问卷调查
• 数据库查询
• 实验室试验
• 仪器设备的记录
例如:影响收入的因素有哪些?如何预测他的收入范围呢?
E:Explore(数据探索)
通过数据探索,以求对数据的进一步了解。常用的探索方向有:
• 离散变量的分布比例
• 连续变量的分布形态
• 数据的异常和缺失
• 特征选择
例如:各变量的缺失状态?统计描述?数据分布形态?
M:Modify(数据修正)
数据修正,便于下一步的分析和建模。常用的修正方法有:
• 数据类型的转换
• 数据的一致性处理
• 异常值和缺失值的处理
• 数据形态的转换
例如:各变量中的缺失数据该如何处理?离散变量如何数值化?
M:Model(数据建模)
数据建模,侧重于未知事件的预测。常用的模型有:
• 有监督的预测性模型(如回归、决策树、KNN等)
• 有监督的判别性模型(如Logistic、贝叶斯、集成算法等)
• 无监督模型(如Kmeans聚类、层次聚类、密度聚类等)
• 半监督模型(如关联规则等)
例如:如何基于调查数据,预测用户的收入水平?
A:Assess(模性评估)
模型评估,检验模型的稳定性以及实用性。常用的检验方法有:
• RMSE
• 混淆矩阵
• ROC曲线
• KS曲线
例如:检验KNN模型对数据的拟合效果?
有没有更好的模型可以度量和预测现有的收入数据呢?
常用策略
• 增加样本
• 扩展维度
• 修正模型参数
• 更换其他模型
SEMMA循环圈

该过程往往是周而复始的过程,为达到更好的拟合效果,会不断地重复数据分析的每一个流程!
二、数据分析与挖掘的区别

三、技能储备
数据搜集 – SQL
数据清洗与探索 – Excel | Python
数据建模 – Python
结果呈现 – PPT
总结
1、基于需求开始一天的工作,工作流程一般遵循SEMMA模式;
2、数据分析更加侧重现状的描述和查因,而数据挖掘则倾向于未知事件的预测;
3、数据分析与挖掘是一项多技能工种,不仅要掌握一定统计学、数学知识,还需要掌握工具的使用;
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)