泰坦尼克数据集_Kaggle--逻辑回归应用之Kaggle泰坦尼克之灾(最新版本)

1212121211211原文链接：机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾_寒小阳-CSDN博客第一个在kaggle完成的竞赛，各方面0基础，于是在kaggle上复现了上面博主的内容。时间：2020年10月，网上其他的代码写的时间比较久了，比如上面博主的代码内容，有些内容和现在python不兼容了。我在下面分享的代码中，做了修改。目录结构：了解数据导入训练数据，调用info()

weixin_39927508

699人浏览 · 2020-11-25 17:46:22

weixin_39927508 · 2020-11-25 17:46:22 发布

1212121211211原文链接：机器学习系列(3)_逻辑回归应用之Kaggle泰坦尼克之灾_寒小阳-CSDN博客

第一个在kaggle完成的竞赛，各方面0基础，于是在kaggle上复现了上面博主的内容。

时间：2020年10月，网上其他的代码写的时间比较久了，比如上面博主的代码内容，有些内容和现在python不兼容了。我在下面分享的代码中，做了修改。

目录结构：

了解数据
1. 导入训练数据，调用info()和describe()，大致了解数据分布
2. 分析乘客各个属性的分布
  1. 获救人数/死亡人数的分布
  2. 乘客客舱等级的分布
  3. 乘客年龄段的分布
  4. 各个口岸上船人数的分布
3. 分析属性和获救结果的关联
  1. 各个乘客等级的获救情况
  2. 不同性别的获救情况
  3. 仓等级&不同性别的人群的获救情况
  4. 各登船港口的获救情况
  5. 堂兄弟/姐妹，孩子/父母有几个人，对是否获救情况的影响
  6. Cabin的有无和获救情况的关系
数据处理
1. 处理年龄和Cabin中存在的缺失值情况
2. 对类目型的特征因子化
3. 把Age和Fare两个属性特征化到[-1,1]之间
模型回归建模
逻辑回归系统优化
1. 模型系数关联分析
2. 交叉验证
3. 模型融合

1. 了解数据

1.1 导入数据集

import pandas as pd
data_train = pd.read_csv('../input/cytitanic/train.csv')
data_train.info()
data_train.describe()
data_train.head()

从上面的数据中，我们可以得出：
1. Age，Cabin，Embarked属性列存在缺失值
2. 数值型：PassengerId，Survived,Pclass,Age,SibSp,Parch,Fare
   类目型：Name,Sex,Ticket,Cabin,Embarked

1.2分析乘客各个属性的分布

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif']=['SimHei'] #显示中文标签
plt.rcParams['axes.unicode_minus']=False
fig = plt.figure(figsize=(20,20))
fig.set(alpha=0.2)  # 设定图表颜色alpha参数

fig.add_subplot(10,1,3)
data_train.Pclass.value_counts().plot(kind="bar")
plt.ylabel("number")
plt.title("Pclass")

fig.add_subplot(10,1,5)
plt.scatter(data_train.Survived, data_train.Age)
plt.ylabel("AGE")                         # 设定纵坐标名称
plt.grid(b=True, which='major', axis='y') 
plt.title("age-range")


fig.add_subplot(10,1,7)
data_train.Age[data_train.Pclass == 1].plot(kind='kde')   
data_train.Age[data_train.Pclass == 2].plot(kind='kde')
data_train.Age[data_train.Pclass == 3].plot(kind='kde')
plt.xlabel("age")# plots an axis lable
plt.ylabel("density") 
plt.title("age-range")
plt.legend(('first', 'second','third'),loc='best') # sets our legend for our graph.


fig.add_subplot(10,1,9)
data_train.Embarked.value_counts().plot(kind='bar')
plt.title("Embarked number")
plt.ylabel("number")  
plt.show()
plt.savefig('ans.png')

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

龙虾（OpenClaw）连接企业微信

DAMO开发者矩阵

2026最新大模型学习路线图！小白也能轻松入门AI，抓住未来机遇！大模型学习路线（2026最新）

DAMO开发者矩阵

人形机器人领域优质媒体：从资讯到深度研究全梳理

人形机器人是当前最热的赛道之一，每天都有新融资、新产品、新技术冒出来。但信息太杂了——公众号一堆、短视频满天飞、真假难辨。想系统跟踪这个领域，需要筛选靠谱的媒体平台。下面按资讯类、深度类、技术类、数据类、社区类分一下，梳理人形机器人领域值得关注的媒体平台。有些是大而全的科技媒体，有些是专注机器人的垂直媒体，还有些是学术和技术社区。