第一章 绪论

1 大数据

数据计量单位换算关系(千进制)

  • 千字节KB
  • 兆字节MB
  • 吉字节GB
  • 太字节TB
  • 拍字节PB
  • 艾字节EB
  • 泽字节ZB
  • 尧字节YB

数据、信息与知识

  • 数据:原始的、未经处理的事实和数字
  • 信息:对数据的理解和解释
  • 知识:对信息的深层次理解和应用

大数据的主要特征

  • 规模性volume
  • 多样性variety
  • 高速性velovity
  • 价值性value
  • 真实性veracity(数据在反映实际情况时的可靠程度),可变性variability,复杂性complexity

2 数据挖掘

大数据挖掘与知识发现

  • 大数据挖掘:提取隐含在大量数据中的具有应用价值的模型或规则等有用知识的过程
  • 知识发现KDD:从大规模数据集中自动抽取出潜在的信息规律的过程

数据挖掘与人工智能

  • 数据挖掘:侧重数据中的知识发现
  • 人工智能:侧重智能系统的开发

数据挖掘过程

  1. 准备阶段:合并压缩,清洗过滤,格式转换
  2. 发现阶段:模型算法(可视化,相关分析,回归分析,数据降维,关联规则挖掘,分类,聚类,异常检测,集成学习)
  3. 解释阶段:评估与解释

相关分析

  • 线性相关分析
  • 非线性相关分析
  • 偏相关分析:在排除了其他相关因素影响的前提下,衡量两个变量之间的相关程度的方法
  • 距离相关分析

3 大数据时代的挑战

  1. 数据结构多样
  2. 特征维度提升
  3. 网络关联复杂
  4. 分析要求实时
  5. 算法可扩展性:支持多核处理器、分布式计算和云计算平台等资源的充分利用
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐