统计学(第七版)

(二) 数据的搜集

目录
在这里插入图片描述

2.1数据的来源

  • 数据的间接来源
  • 数据的直接来源
2.1.1数据的间接来源

简单的说就是现有的数据,网上找的

  • 系统外部的数据(网上现成的,获取难度较低的)
    在这里插入图片描述
  • 系统内部的数据 (获取难度高的)
    ![# 这里有一张图片](https://img-blog.csdnimg.cn/20200302141655953.png
    间接来源的数据也称二手数据
二手数据的特点

# *这里有一张图片*

二手数据的评估

在这里插入图片描述

2.1.1数据的直接来源

简单的说就是原始数据
在这里插入图片描述

2.2数据的调查方法

  • 概率抽样与非概率抽样
  • 搜集数据的基本方法
2.2.1概率抽样与非概率抽样

注:概率抽样可以推广到总体,而非概率抽样则不可以,这是这两者之间的最大区别

2.2.1.1概率抽样
  • 概率抽样
    • 简单随机抽样
    • 分层抽样
    • 整群抽样
    • 系统抽样
    • 多阶段抽样.

在这里插入图片描述

1.简单随机抽样

在这里插入图片描述

2.分层抽样

也可以叫分类抽样
在这里插入图片描述举例:如研究学校学生成绩,先把学生分为男女.从男生中选一部分,从女生中选一部分.

3.整群抽样

在这里插入图片描述举例:如研究学校学生成绩,先把学生分为几个班级,对抽中的几个班级的所有学生都进行研究
抽出群之后,对群的所有单位进行调查,要与分层区分开,缺点,精度较差,因为抽出的群体比较集中,不能精确的代表群体,比如抽到火箭班

4.系统抽样

在这里插入图片描述
举例:如研究学校学生成绩,先把学生按姓名排序好,先随机的确定一个人(比如学生A)再以该A同学为初始单位,以固定的间隔选出剩下的(比如间隔10人取一个)

5.多阶段抽样

在这里插入图片描述

2.2.1.2非概率抽样
  • 非概率抽样
    • 方便抽样
    • 判断抽样
    • 自愿抽样
    • 滚雪球抽样
    • 配额抽样

在这里插入图片描述

1.方便抽样

在这里插入图片描述注:调查的对象不难代表总体,比如调查洗发水,柜台前的顾客女性偏多,造成了结论更加适合女性而不是整体

2.判断抽样

带着目的性,针对性地去抽样
在这里插入图片描述举例:比如调查与奶粉有关的问题,抽样者会带着主观意识会优先调查年轻的妈妈
注:结果与调查员的专业素质有关,没有依据随机的原则

3.自愿抽样

在这里插入图片描述

4.滚雪球抽样

在这里插入图片描述
注:个人认为可以按传销来形象的理解

5.配额抽样(了解即可)

第一步 分层抽样
第二步 按照前面提到的非概率抽样的方法进行
在这里插入图片描述

概率抽样与非概率抽样的比较

在这里插入图片描述

2.2.2搜集数据的基本方法

在这里插入图片描述

1.自填式问卷调查

在这里插入图片描述

2.面访式问卷调查

得到的数据的质量较高
在这里插入图片描述

3.电话式问卷调查

在这里插入图片描述

4.观察式调查

调查人员不介入
在这里插入图片描述

各个调查方式的比较

在这里插入图片描述

2.3实验数据

  • 实验组和对照组
  • 实验中的若干问题
  • 实验中的统计
  • 实验法案例
2.3.1 实验组和对照组

在这里插入图片描述注:可以安寨python sklearn中的数据集划分来理解

2.3.2 实验中的若干问题

在这里插入图片描述注:各种人的原因会使得到的数据不准确(如隐私)

2.3.3 实验中的统计

在这里插入图片描述

2.4 数据的误差

  • 抽样误差
  • 非抽样误差
  • 误差的控制
    在这里插入图片描述
2.4.1 抽样误差

在这里插入图片描述注:比如有些地方成绩好的特别好,成绩差的特别差,调查员抽到了特别好的等等

2.4.2 非抽样误差

在这里插入图片描述
注:回答误差: 故意隐瞒,撒谎等等
无回答误差,比如电话调查时对方未接电话
调查员误差,比如调查员记录错误,或者带主观的引导对方

2.4.3 误差的控制

在这里插入图片描述

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐