第1章

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

统计学是处理数据的方法论。

参数 表示总体特征的概括性数字度量,是研究者想要了解的总体的某种特征值。

统计量 是用来描述样本特征的概括性数字度量。

常用统计量包括:

(1)表示位置的统计量——样本均值。

(2)表示离散程度的统计量——样本标准差、样本方差。

统计学中,经常用样本统计量来估计总体参数。

统计学方法:

(1)描述统计学

(2)推断统计学

管理统计学是应用于管理相关的领域的统计学理论和方法。

统计学在企业管理中所扮演的角色就是将原始数据转换为有价值的信息的过程。

第2章 数据收集方法

定性数据:

定类尺度:是最低的计量尺度,按照属性对事物进行分类,如品牌、性别等。

定类尺度:表现为类别,但不区分顺序,

定序尺度:具有定类尺度的特征,能够反映类别的等级,如成绩等级、满意度等;

定序数据表现为类别,有顺序,

定距尺度:在定序尺度的基础上,对事物类别或者次序之间间距的测度,没有绝对零点,如温度、海拔等。

定距数据表现为数值,可进行计算,

定比尺度:是最高的度量尺度,有绝度零点,如成绩分数、收入等。

定比数据表现为数值,可进行加减乘除运算,

高层次数据类型具有低层次数据类型的一切特征,反之,未必。

适用于低层次数据的统计方法同样适用于高层次数据类型。

第4章 描述数据的图表方法

定性数据是只能归于某一类别的非数字型数据,数据表现为类别。

定量数据是按数据尺度测量的观测值,其结果表现为数值。

单变量定量数据,如每天的步数,一类产品的销售价格。

多变量定量数据,如每天的运动时间及对应的消耗。

单变量定性数据:如考试成绩等级

多变量定性数据:如期中考试和期末考试的成绩等级。

定量数据的分组步骤:

(1)确定组数:K=1+logn/log2

(2)确定各组的组宽:

(3)

饼图通常用来描述落在各类中的测量值数分别在总数中所占的比例,对于研究结构性问题相当有用。

环形图

显示具有相同分类且问题可比的多个样本或总体中各类别所占的相应比例,对各总体进行比较研究。

在类别值为定序数据时这种比较才有意义。

交叉表

第4章 描述统计中的测度

测度:在数学分析里指一个函数,它对一个给定集合的某些子集指定一个数。

统计数据的测度主要分为:

集中趋势测度:

反映一组数值向中心值靠拢的倾向,或表明一组统计数值所具有的一般水平。

离散趋势测度:

反应各数据远离其中心值的趋势。

极差:表明数列中各变量值变动的范围。R越大,表明数列中变量值变动的范围越大,即数列中各变量值差异大。

极差只能说明两个极端变量值的差异,不能反映各变量值的差异程度。

四分位差另一种离散趋势测度。

离散趋势测度揭示变量值的差异,反映总体各变量值远离其平均数的趋势。

离散趋势测度和集中趋势测度分别从不同的侧面反映总体的数量特征。

形状测度

第5章 概率与概率分布

第6章 抽样与抽样分布

为什么抽样 ?

(1)总体容量太大、时间太长、成本太高。

(2)分析样本统计量,可以认识总体的未知参数。

涉及到中心极限定理就会涉及到计算!!!

中心极限定理:从均值为μ方差为?的任意一个总体中抽取样本容量为n的随机样本。当n充分大时,样本均值的抽样分布近似服从??的正态分布。

当样本容量n大于等于30,无论总体分布的形态如何,中心极限定理均适用。

在经济管理中,经常使用样本比例p推断总体比例π

第七章 参数估计

参数估计的意义:

  • 利用样本的性质去推断总体的性质
  • 参数能够提供刻画总体性质的重要信息,当参数未知时,就要利用样本对参数进行估计,进而获得总体的信息
  • 参数估计是在抽样及抽样分布的基础上,根据样本统计量来推断所关心的总体参数,进而达到认识总体未知参数的目的

样本统计量是什么?

样本统计量(简称统计量)指的是样本的函数,并且此函数不含未知参数。常见的统计量有:样本均值,样本方差等。

参数估计的分类:

  • 点估计:矩估计、极大似然估计、最小二乘估计等
  • 区间估计:总体均值估计、总体比例的区间估计等

什么是点估计?

使用样本统计量估计参数值的方法称为点估计。

原点矩和中心矩是什么呀?

  • 用样本的一阶原点矩来估计总体的均值μ
  • 用样本的二阶中心距来估计总体的方差

极大似然估计的原理是什么?

点估计的评价准则:

  • 无偏性:虽然不同的样本有不同的估计值,但反复抽取样本并计算相应估计值,估计值的均值与真值相等,则为无偏估计量。所谓无偏性是指样本估计量的数学期望等于被估计总体参数的真值。
  • 有效性:两个无偏估计量a,b,如果a的观测值比b的观测值更为集中于未知参数x的真值附近,则a比b更有效。
  • 一致性:当样本容量n趋于无穷大时,估计量依概率收敛于总体未知参数x。

点估计的优点是简单,但是不能反映估计量的可信度和精度。

区间估计的关键术语:

  • 置信区间:在点估计的基础上,给出总体参数估计的一个区间范围,该区间由样本统计量加减抽样误差而得到的。
  • 置信水平(1-α):样本统计量与总体参数的接近程度给出的概率量度。

区间估计的步骤!!!(计算!!!)

第八章 假设检验

假设检验和参数估计是统计推断的两个重要组成部分,它们都是利用样本对总体进行某种推断。

参数估计是用样本统计量估计总体未知参数的方法。

假设检验也称为显著性检验,是事先做出一个关于总体参数的假设(H(0)),然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设的统计推断方法。

假设检验依据概率论中“在一次实验中,小概率事件几乎不发生”的原理。

显著性水平:表示原假设H0 为真时拒绝H0 的概率,即拒绝原假设的风险,用α表示。

拒绝域:

假设检验:是事先做出一个关于参数的假设(H0),然后利用样本信息来判断原假设是否合理,从而决定是否接受原假设的统计推断方法。

假设检验依据概率论中“在一次实验中,小概率事件几乎不发生”的原理,即认为在一次实验中小概率事件不可能发生。

假设检验的步骤:

提出原假设和备择假设--->确定检验统计量--->确定接受域和拒绝域--->计算统计量与统计决策

假设检验需要借助样本统计量进行统计推断,即检验统计量。

不同的假设检验问题需要选择不同的检验统计量。

选择统计量需要考虑的因素包括但不仅限于:

(1)总体方差已知还是未知。

(2)单一总体还是两个总体。

(3)用于进行检验的样本是大样本还是小样本。

单侧检验和双侧检验:

原假设检验是否相等(带=号)的为双侧检验

带有方向性的检验(明显提高、减少)为单侧检验

H0 :例如, μ>300为左侧检验

第一类错误(弃真错误):原假设H0 为真,但是由于样本的随机性使得样本统计量落入拒绝域,由此做出拒绝原假设的错误判断。

第二类错误(取伪错误):

P值是指在原假设H0 为真时,所得样本观察结果更极端的结果出现的概率。

P值越小,拒绝原假设的理由越充分。

第9章 方差分析

方差分析是检验多个总体的均值是否相等的方法。其本质是研究变量之间的关系。

方差分析同时考虑所有的样本,排除了错误累积的概率,更大程度上能够避免拒绝正确的原假设。

方差分析:通过检验各种体的均值是否相等来判断定类型自变量对数值型因变量是否有显著影响。

因素水平:因素的不同表现。

观测值:在每个因素水平下得到的样本值。

从散点图中可以看出,不同颜色饮料的销售量有明显差异,并且同一颜色饮料的销售量也有明显不同。

图形不能证明不同颜色的销量有显著差异,也许这种差异是由样本的随机性造成的。

随机误差:因素的同一水平(总体)下,样本各观察值之间的差异。这种差异可以看成是随机因素的影响,称为随机误差。

组内误差只含随机误差。

因素的不同水平(不同总体)下,各观察值之间的差异可能是由于抽样的随机性所造成的,也可能是由于因素水平本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差。

组间误差是随机误差和系统误差的总和。

总离差平方和(SST):全部数据x(ij)与总均值的差异。

组内离差平方和(SSE):每组的每个数据x(ij)与该组均值的差异。

组间离差平方和(SSA):各组的均值与总均值间的差异。

如果各因素水平的总体均值是相同的(颜色对销售量没有影响),那么组间误差只包含随机误差,而没有系统误差。此时,组间离差平方和SSA与组内离差平方和SSE的比值就会接近1。

方差分析的目的:检验均值是否相等。

方差分析的思路:比较组内方差和组间方差。若两者显著不等,则均值不相等;否则,均值是相等的。

方差分析的方法:计算组件和组内方差比。

单因素方差分析的步骤:

提出假设:

单因素方差分析的目的是检验因素的k个水平的均值是否相等,因此提出如下形式的假设:

H(0)自变量对因变量没有显著影响。均值相等

H(1)自变量对因变量有显著影响。

如果拒绝原假设,意味着自变量对因变量有显著影响。

构造检验统计量:

(1)计算各样本组的均值

(2)计算全部观测值的总均值

(3)计算总离差平方和SST

(4)计算组间离差平方和SSA

(5)计算组内离差平方和SSE

(6)计算统计量

(7)构建检验统计量

统计决策

第 10 章 卡方分布和列联分析

  • 拟合优度检验

第11章 相关与回归分析

  • 相关系数的显著性检验

一般情况下,总体的相关系数ρ是未知的,通常将样本相关系数作为ρ的近似估值。为了考量样本相关系数的可靠性,需要进行显著性检验。

r的显著性检验(t检验)

  • 回归方程的显著性检验
  • 回归系数的显著性检验

观测值与其平均值的偏差平方和称为总离差平方和,记为SST。

SST=SSR+SSE

回归平方和SSR反映x的变化对y取值变化的影响;残差平方和SSE反映除x以外的其他因素对y取值变化的影响。

相关系数r衡量的是两个变量之间相关的强弱程度。

决定系数是相关系数的平方。它衡量的是变量y中有多大比例能用变量x来解释。

第12章 时间序列分析与预测

时间序列分析

移动平均法

指数平滑法

线性趋势预测

指数趋势

多阶曲线模型

多项式预测案例

自回归预测模型

复合型序列的分解步骤:

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐