d65c6e9881b4cfd3e9310ba9e2a27bc657829d61.png

文章目录数据获取、结构分析如何获取seaborn提供数据源

特征列分析

缺失值与数据清洗年龄缺失值处理

填充embarked

删除不必要的列

幸存者分析分析性别对存活率的影响

分析年龄对存活率影响

分析舱位等级与存活率影响

数据获取、结构分析

如何获取seaborn提供数据源

在python中基本所有的核心库都提供了自己的数据源,例如:seaborn、sklearn、tensorflow… 而且这些数据源基本都托管在github中,如果想了解获取数据原理,单击load_dataset源码就可以看到数据的下载地址。ce2395e267ff15d9c3e56b6059e798b0fcd72dd7.png

通过github下载数据如下, 如果数据量比较大可以保存到本地的csv格式07867399bcba066a273460d573dffc15b1806090.png

特征列分析在此套课程中我们仅仅讲解关于特征列的清洗、数据分析、列的缺失、异常值处理等… 后续在机器学习课程中还会讲解到特征工程、PCA主特征分析等重要概念。Survived: 生存情况,0代表不幸遇难,1代表存活;

Pclass: 仓位等级,1为一等舱,2为二等舱,3为三等舱;

Name: 乘客姓名;

Sex: 性别;

Age: 年龄;

SibSp: 乘客在船上的兄妹姐妹数/配偶数(即同代直系亲属数)

Parch: 乘客在船上的父母数/子女数(即不同代直系亲属数);

Ticket: 船票编号;

Fare: 船票价格;

Embarked: 登船港口 (S: Southampton; C: Cherbourg Q: Queenstown)

alive:活着

alone:单身

缺失值与数据清洗

年龄缺失值处理570f2fdeb08610350dd103e573e8122e1c2c2856.png

填充embarked0097116266eae0abeedab465c1c5f38caf483fdc.png

删除不必要的列一般我们会把不重要的列,缺失值比较多的列删除掉。bdc681b00c6f287cda13179aa0b3779134f7349f.png

幸存者分析

分析性别对存活率的影响虽然男士体力较好,但是在这次海难中体现了绅士风度,把生存的机会留给了女士,所以性别对存活率影响比较大495a22b4c1ec05648db770c78193f44af1a3fb3c.png

a051942926884a4643e09a40821966cd36bba495.png

分析年龄对存活率影响由于年龄是连续型的数据, 连续型数据不方便分组,因此建议编写一个函数让连续型数据转化为离散型数据3f6f37e2ab2fc6f0c7e1367801a2366f2ea24c85.png

128d21329e74fde1e9be90f2c61dfcecaca0afdf.png

分析舱位等级与存活率影响d26c34968dcc928afd94b6938f5cb0f47e687efe.png

f67e1c83d9372649e35f0f524d5b284193978007.png

7ab73c4c1f96f4afd322e361516c4513bf1357d0.jpg

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐