我是如何寻找数据集的,一些个人私藏
大家好,我是kaiyuan。最近有同学微信问我某某方向的数据集在哪里找,于是周末抽空整理了十多个非常全面的数据集查找平台,分享给大家。下面都带了链接,有些可能会需要梯子,收藏Enjoy!呼...
大家好,我是kaiyuan。最近有同学微信问我某某方向的数据集在哪里找,于是周末抽空整理了十多个非常全面的数据集查找平台,分享给大家。
下面都带了链接,有些可能会需要梯子,收藏Enjoy!呼~又水了一篇????
Google 数据集
谷歌为数据集专门开发的搜索系统,20年初就已经覆盖2500万的数据集。界面也非常简洁,输入关键词即可返回相对应的数据集描述,如下。
-
链接:https://datasetsearch.research.google.com/
Huggingface数据集
NLP界网红抱抱脸家的数据集,主要是自然语言处理方面的数据。支持使用python直接调取,譬如squad_dataset = load_datasets("squad")。
-
链接1:https://github.com/huggingface/datasets
-
链接2:https://huggingface.co/datasets
Kaggle 数据集
Kaggle大家再熟悉不过了,比赛平台自然少不了数据啦。
-
链接:https://www.kaggle.com/datasets
Paper With Code 数据集
4075个机器学习相关数据集,相比于其他平台的优势是会将数据集和相应领域的paper和benchmark对应在一起。
-
链接:https://www.paperswithcode.com/datasets
Reddit 数据集
Reddit是国外热门论坛,在dataset板块,可以搜索数据集。相比于其他平台不同的是,可以与其他人针对数据集一起讨论。
-
链接:https://www.reddit.com/r/datasets/
CLUE 数据集
虽然上述平台也会涵盖中文的数据集,但是可能并不全面。CLUE组织专门针对中文NLP数据搭建了一个平台,同时开源了许多中文大规模数据和预训练模型,点赞!!
-
链接:https://www.cluebenchmarks.com/dataSet_search.html
以上几个数据集是我自己平时使用效果比较好的,如果还没找到你想要的数据,再提供几个可以尝试:
-
链接:https://www.datasetlist.com/
-
链接:https://github.com/awesomedata/awesome-public-datasets
-
链接:https://tinyletter.com/data-is-plural
-
链接:https://jupyter-tutorial.readthedocs.io/en/latest/data/index.html
-
链接:https://www.openml.org/search?type=data
-
链接:https://github.com/InsaneLife/ChineseNLPCorpus
Enjoy your data trip!
一起交流
想和你一起学习进步!『NewBeeNLP』目前已经建立了多个不同方向交流群(机器学习 / 深度学习 / 自然语言处理 / 搜索推荐 / 图网络 / 面试交流 / 等),名额有限,赶紧添加下方微信加入一起讨论交流吧!(注意一定要备注信息才能通过)

- END -


NewBeeNLP 年中 | From NewBee To NB
200+篇Graph4NLP文献集:图深度学习在NLP任务的应用

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。
更多推荐



所有评论(0)