vbs excel文件数据比对工具_数据分析工具-Excel
通过猴子老师的课程,让我知道数据分析的基本步骤,或者说基本思考逻辑顺序大概分为5步提出问题(明确要分析的问题)理解数据集(采集数据集、数据信息、描述统计、字段理解)数据清洗(数据预处理:选定要分析数据子集->列名标题统一->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理数据分析和构建模型(描述统计,数据透视表,数据分组,函数应用,组合结果)数据
通过猴子老师的课程,让我知道数据分析的基本步骤,或者说基本思考逻辑顺序大概分为5步
- 提出问题(明确要分析的问题)
- 理解数据集(采集数据集、数据信息、描述统计、字段理解)
- 数据清洗(数据预处理:选定要分析数据子集->列名标题统一->删除重复值->缺失值处理->一致化处理->数据排序->异常值处理
- 数据分析和构建模型(描述统计,数据透视表,数据分组,函数应用,组合结果)
- 数据可视化(可视化工具或者excel 图表)
使用excel做数据分析实操案例
接下来,用学到的数据分析步骤去进行探索性分析,观察分析结论并总结
一.明确问题
通过数据来源的2个excel文件,表1购买婴儿商品和表2婴儿信息的内容,我们可以提出以下业务问题:
1、想知道每年每季度每月的销售额,以及各个种类的数量。
2、不同的年龄以及性别对不同种类商品的需求关系
二.理解数据
观察数据表(表1_购买商品, 表2_婴儿信息), 理解每列数据的含义, 并对列名加备注, 如下图.
三.数据清洗
选定表1购买商品和表2婴儿信息-数据清洗
在对数据清洗之前,选做一个文件副本并重命名,以免在之后的操作过程中,没有备份破坏原始数据。
1)隐藏目前不需要的数据:auction_id、property
2) 删除重复值:对于表2, 利用唯一标识"user_id " , 检查有无重复出现的用户ID,删除27个重复值
3) 缺失值处理: 表1 & 表2 无缺失值.
4)一致化处理 统一日期数据格式为 (年/月/日): 表1G列 (day 购买时间) & 表2B 列 (birthday 出生日期).
5) 异常值处理:
- 出生日期: 其中一位婴儿(用户ID 89520261)出生日期落在1984年, 视其为异常值, 删除异常值
- 婴儿性别: 其中有26个值为 "2", 无法界定是0女或1男; 视它们为异常值, 删除异常值
四.数据分析
1)分组汇总: 商品大类的销量
- 按cat1_商品大类别, 汇总其年销售量和月销售量, 如下图 (图1销量, 图2销量占比).
- 发现问题.
商品销量数据: 2013年和2014年包含全年12个月的数据 , 其余年份只包含部分月数据。
整体销量逐年爆炸性增长:2014全年比2013全年几乎翻番, 2015年仅前两月销量就达4270.
88%的销量集中在3个商品大类: 28 (37.44%), 50014815 (25.93%), 50008168 (24.63%).
2) 分组汇总: 热销产品(子类别)的销量
- 热销产品(子类别)排名.
发现问题
- 销量前三名的商品是—50018831, 50011993, 50012788
- 总体来看, 前25位产品销量基本上连年波动递增
- 同时也有个别特殊数据, 如下图蓝色标出: 50018831, 2014/11月销量11028; 50012788, 2013/12月销量2853; 50007016, 2014/9月销量2749. 对于这几个产品的销量暴增, 有可能是季节促销团购(例如 双十一), 也有可能是异常数据。
3) 分组汇总: 销量按婴儿年龄和性别
分组汇总:男婴女婴百分比
婴儿年龄百分比
发现问题:
男婴女婴的比例基本是1:1,婴儿年龄大部分是在6-9岁
分组汇总:按婴儿性别分析销量
婴儿数据只有953条,而购买商品数据有29972条,先用Vlookup去除了没有性别匹配的项,得出955条购买记录
发现问题:
六大类产品,女婴家长的购买力(销量52.85%)高于男婴家长(销量47.15%)
4)描述统计分析应用
- 选取2014年一整年的销量数据作为被分析数据子集
对六个大类的产品进行描述统计分析
发现问题
月销量平均值:月平均值最高1041.167(商品:50008168),月平均值最低100.25(商品:38)
月销量中位数:除了商品50008168、28、50014815月销量中位数差距特别大以外,其他商品的中位数、平均值相对比较接近
最大/最小值:商品商品50008168的最大值是1661,直接拉升了此商品的月销量平均值
DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐


所有评论(0)