泰坦尼克号python数据分析统计服_数据分析&可视化——泰坦尼克号幸存者分析(上)...
文章目录数据获取、结构分析如何获取seaborn提供数据源特征列分析缺失值与数据清洗年龄缺失值处理填充embarked删除不必要的列幸存者分析分析性别对存活率的影响分析年龄对存活率影响分析舱位等级与存活率影响数据获取、结构分析如何获取seaborn提供数据源在python中基本所有的核心库都提供了自己的数据源,例如:seaborn、sklearn、tensorflow… 而且这些数据源基本都托管在

文章目录数据获取、结构分析如何获取seaborn提供数据源
特征列分析
缺失值与数据清洗年龄缺失值处理
填充embarked
删除不必要的列
幸存者分析分析性别对存活率的影响
分析年龄对存活率影响
分析舱位等级与存活率影响
数据获取、结构分析
如何获取seaborn提供数据源
在python中基本所有的核心库都提供了自己的数据源,例如:seaborn、sklearn、tensorflow… 而且这些数据源基本都托管在github中,如果想了解获取数据原理,单击load_dataset源码就可以看到数据的下载地址。
通过github下载数据如下, 如果数据量比较大可以保存到本地的csv格式
特征列分析在此套课程中我们仅仅讲解关于特征列的清洗、数据分析、列的缺失、异常值处理等… 后续在机器学习课程中还会讲解到特征工程、PCA主特征分析等重要概念。Survived: 生存情况,0代表不幸遇难,1代表存活;
Pclass: 仓位等级,1为一等舱,2为二等舱,3为三等舱;
Name: 乘客姓名;
Sex: 性别;
Age: 年龄;
SibSp: 乘客在船上的兄妹姐妹数/配偶数(即同代直系亲属数)
Parch: 乘客在船上的父母数/子女数(即不同代直系亲属数);
Ticket: 船票编号;
Fare: 船票价格;
Embarked: 登船港口 (S: Southampton; C: Cherbourg Q: Queenstown)
alive:活着
alone:单身
缺失值与数据清洗
年龄缺失值处理
填充embarked
删除不必要的列一般我们会把不重要的列,缺失值比较多的列删除掉。
幸存者分析
分析性别对存活率的影响虽然男士体力较好,但是在这次海难中体现了绅士风度,把生存的机会留给了女士,所以性别对存活率影响比较大

分析年龄对存活率影响由于年龄是连续型的数据, 连续型数据不方便分组,因此建议编写一个函数让连续型数据转化为离散型数据

分析舱位等级与存活率影响


DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)