pandas数据分析常用的统计学方法和函数总结

groupby()：将数据集按照一个或多个列分组，并对每个分组应用一个或多个聚合函数。apply()：将一个函数应用于数据集的每个元素或每个列。median()：对每个分组中的数据进行中位数计算。mean()：对每个分组中的数据进行均值计算。max()：对每个分组中的数据进行最大值计算。min()：对每个分组中的数据进行最小值计算。count()：计算数据集的非缺失值的数量。count()：对每个

字节跳远

1413人浏览 · 2023-04-01 14:39:31

字节跳远 · 2023-04-01 14:39:31 发布

Pandas 是 Python 中的一个数据处理库，提供了许多常用的统计学方法和函数，包括描述性统计、分组统计、相关性和协方差、回归和假设检验等。以下是一些常用的统计学方法和函数总结：

描述性统计

describe()：生成一份 DataFrame，其中包括针对数值数据列的统计信息，如均值、标准差、最小值、最大值等。

mean()：计算数据集的均值。

median()：计算数据集的中位数。

mode()：计算数据集的众数。

std()：计算数据集的标准差。

var()：计算数据集的方差。

count()：计算数据集的非缺失值的数量。

分组统计

groupby()：将数据集按照一个或多个列分组，并对每个分组应用一个或多个聚合函数。

sum()：对每个分组中的数据进行求和。

count()：对每个分组中的数据进行计数。

mean()：对每个分组中的数据进行均值计算。

median()：对每个分组中的数据进行中位数计算。

max()：对每个分组中的数据进行最大值计算。

min()：对每个分组中的数据进行最小值计算。

相关性和协方差

corr()：计算两个数据集之间的相关系数。

cov()：计算两个数据集之间的协方差。

回归和假设检验

regression()：拟合线性回归模型。

ttest_ind()：计算两个独立样本的 t 检验。

ttest_rel()：计算两个相关样本的 t 检验。

其他常用函数

isnull()：检测缺失值。

dropna()：删除包含缺失值的行或列。

fillna()：填充缺失值。

apply()：将一个函数应用于数据集的每个元素或每个列。

这些函数和方法只是 Pandas 提供的一小部分功能，具体使用方法和参数可以查看 Pandas 官方文档。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

cover

人形机器人爆发背后，一个被忽视的核心技术：机器人运动学控制

DAMO开发者矩阵

cover

一份EtherCAT主站的FPGA Verilog代码 ethercat 主站 FPGA ve...

DAMO开发者矩阵

cover

2026年企业级RPA架构对比：非侵入式部署与AI融合谁更具落地深度？

DAMO开发者矩阵

所有评论(0)

查看更多评论

字节跳远

已为社区贡献2条内容