bd69a7d1ca8cd514d78c323e40a55ab9.png

我们都知道在数据分析前,首先需要对数据进行预处理,检查数据中是否含有存在无效样本、异常值等。如果同一样本中存在大量漏填数据或相似答案过多的情况这样的样本都应该算作无效样本来处理。

无效样本的常见使用场景

  • 问卷研究中乱填问卷的样本;
  • 数据库下载的数据中有大量缺失数据;
  • 二手数据中包括无效或缺失数据;
  • 其它收集数据中有无效样本时。

例如,在某项问卷调查中,查看数据发现,某个被调查者有多道题目未作答,问卷数据有缺失,无效样本如果不加处理会干扰分析结果,对数据结果产生严重影响。

无效样本的设置步骤

案例:当前共收集300份问卷,现在需要对问卷进行筛选剔除无效问卷。

Step1:上传原始数据

首先将原始数据上传至SPSSAU中。

02c161453cd37840efe81ae456423b05.png
支持Excel或spss格式数据

Step2:选择左侧【数据处理】->【无效样本】,显示如下图界面。

6bb2e83ab4076dec7607f729ac0cf53b.png

Step3:点击选中要进行处理的题目,配合shift/ctrl可批量选中标题。这里我们选择除基本信息以外的全部题项。

2a7e47cbdca93f1d4417d390f1255c28.png

Step4:设置判断标准

系统提供两种无效样本的设置标准:相同数字和缺失比例

  • 相同数字:当选中标题中有(比如70%)均是同一数字时,标识为无效样本;此处70%并没有固定标准,人为设定。
  • 缺失比例:当选中标题中有(比如70%)均是缺失数据时,标识为无效样本;此处70%并没有固定标准,人为设定。

a241eff6f340285f50d15d0d970f7ee5.png

Step5:确定处理,生成新标题

完成无效样本设置后,SPSSAU会新生成一个标题用于标识有效还是无效样本,名称类似为“无效样本处理_****_1表示有效0代表无效”【数字1表示该样本有效,0表示无效】,

5a22cdad3a7af08bd5735ce0cad978c6.png

Step6:筛选样本

在后续分析的时候,需要对此标题进行筛选【筛选样本功能】,筛选出有效样本(数字1)然后再进行分析

b174f3a31ca1d04df64e55bb4019282e.png

此时再查看一下,当前分析的样本量已经变成了280份,剔除了20份无效样本。

e2d1e08ee458fc48399bcc74de938246.png

无效样本的使用注意事项

  • 无效样本设置时,需要先选中需要处理的标题,如果是整份数据,则使用shift/ctrl批量选中全部标题即可;
  • 无效样本设置后,可对“标识新标题”进行频数分析,了解无效样本数量等。
  • 同时用户如果需要使用原始数据,可通过右上角‘上传数据->下载’,将原始数据下载使用。

| 更多分析方法相关内容可登录SPSSAU官网查看

SPSSAU:数据基本描述之频数分析

SPSSAU:数据基本描述之描述性分析

SPSSAU:方差分析、T检验、卡方分析如何区分

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐