数据获取

1.一些常见的机器学习现成数据集

MNIST:手写数据集
ImageNet:图片数据集,从图片搜索引擎上获得
AudioSet:音频数据集,youtube上的音频切片
Kinetics:人类行为数据集,youtube上的视频切片
KITTI:无人驾驶数据集,被相机记录到的一些交通场景
Amazon Review:评论数据集,亚马逊网站上的一些用户评论
SQuAD:问答数据集
LibriSpeech:有声读物数据集

2.从哪获取数据集

1.Paperswithcodes Datasets
2.Kaggle Datasets
3.Google Dataset search
4.tensorflow、sklearn
5.各种会议、公司的机器学习竞赛
6.Open Data on AWS
7.自己公司或者组织的data lakes

优点 缺点
学术数据集 干净、难度适中 选择太少,太简单,通常规模很小
竞赛数据集 接近真实的机器学习应用 简单,只有一些热点话题的数据集
原始数据集 灵活性很强 需要花费很大力气进行处理

3.生成数据

  1. 使用生成对抗网络
  2. 数据增强
    对数据PS,例如:加噪音,旋转等

4.其他方法

  1. 爬虫
  2. 去现实生活中采集
Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐