通过猴子老师的课程,让我知道数据分析的基本步骤,或者说基本思考逻辑顺序大概分为5步

  • 提出问题(明确要分析的问题)
  • 理解数据集(采集数据集、数据信息、描述统计、字段理解)
  • 数据清洗(数据预处理:选定要分析数据子集->列名标题统一->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理
  • 数据分析和构建模型(描述统计,数据透视表,数据分组,函数应用,组合结果)
  • 数据可视化(可视化工具或者excel 图表)

使用excel做数据分析实操案例

接下来,用学到的数据分析步骤去进行探索性分析,观察分析结论并总结

一.明确问题

通过数据来源的2个excel文件,表1购买婴儿商品和表2婴儿信息的内容,我们可以提出以下业务问题:

1、想知道每年每季度每月的销售额,以及各个种类的数量。

2、不同的年龄以及性别对不同种类商品的需求关系

二.理解数据

观察数据表(表1_购买商品, 表2_婴儿信息), 理解每列数据的含义, 并对列名加备注, 如下图.

43066971168b3641a4f99b9c73507463.png

82c0aa53aba7e4327365aca9b93bd7dd.png

三.数据清洗

选定表1购买商品和表2婴儿信息-数据清洗

在对数据清洗之前,选做一个文件副本并重命名,以免在之后的操作过程中,没有备份破坏原始数据。

1)隐藏目前不需要的数据:auction_id、property

2) 删除重复值:对于表2, 利用唯一标识"user_id " , 检查有无重复出现的用户ID,删除27个重复值

3) 缺失值处理: 表1 & 表2 无缺失值.

4)一致化处理 统一日期数据格式为 (年/月/日): 表1G列 (day 购买时间) & 表2B 列 (birthday 出生日期).

5) 异常值处理:

  • 出生日期: 其中一位婴儿(用户ID 89520261)出生日期落在1984年, 视其为异常值, 删除异常值
  • 婴儿性别: 其中有26个值为 "2", 无法界定是0女或1男; 视它们为异常值, 删除异常值

四.数据分析

1)分组汇总: 商品大类的销量

  • 按cat1_商品大类别, 汇总其年销售量和月销售量, 如下图 (图1销量, 图2销量占比).

cf6497d9ae0115ada5bd446f017273f1.png

fbe8c952c1d1e06257f1783e509ea126.png
  • 发现问题.

商品销量数据: 2013年和2014年包含全年12个月的数据 , 其余年份只包含部分月数据。

整体销量逐年爆炸性增长:2014全年比2013全年几乎翻番, 2015年仅前两月销量就达4270.

88%的销量集中在3个商品大类: 28 (37.44%), 50014815 (25.93%), 50008168 (24.63%).

2) 分组汇总: 热销产品(子类别)的销量

  • 热销产品(子类别)排名.

361fe90a0ffa36549fb05c01e3bed0a2.png

bd4077bc45c79917eb6514a72580bb42.png

发现问题

- 销量前三名的商品是—50018831, 50011993, 50012788

- 总体来看, 前25位产品销量基本上连年波动递增

- 同时也有个别特殊数据, 如下图蓝色标出: 50018831, 2014/11月销量11028; 50012788, 2013/12月销量2853; 50007016, 2014/9月销量2749. 对于这几个产品的销量暴增, 有可能是季节促销团购(例如 双十一), 也有可能是异常数据。

3) 分组汇总: 销量按婴儿年龄和性别

分组汇总:男婴女婴百分比

081a7ff9f6251a77e0d382ce84dee4e5.png

婴儿年龄百分比

18c71748e981fd62110d90e6a06004fd.png

发现问题:

男婴女婴的比例基本是1:1,婴儿年龄大部分是在6-9岁

分组汇总:按婴儿性别分析销量

婴儿数据只有953条,而购买商品数据有29972条,先用Vlookup去除了没有性别匹配的项,得出955条购买记录

103d29e2bd8f17d047eca3a364978d41.png

发现问题:

六大类产品,女婴家长的购买力(销量52.85%)高于男婴家长(销量47.15%)

419d5724794a5c6d91ef6e52395a38ab.png

4)描述统计分析应用

  • 选取2014年一整年的销量数据作为被分析数据子集

9eed22d4e6497af18b055dd5612e3de6.png

对六个大类的产品进行描述统计分析

c4e219122d2e419d938bcdce161d24fa.png

发现问题

月销量平均值:月平均值最高1041.167(商品:50008168),月平均值最低100.25(商品:38)

月销量中位数:除了商品50008168、28、50014815月销量中位数差距特别大以外,其他商品的中位数、平均值相对比较接近

最大/最小值:商品商品50008168的最大值是1661,直接拉升了此商品的月销量平均值

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐