HuggingFace数据集下载全攻略

weixin_48924264

2146人浏览 · 2025-12-25 16:49:40

weixin_48924264 · 2025-12-25 16:49:40 发布

国内需科学上网！！

使用Hugging Face Datasets库下载数据（推荐使用）

安装Hugging Face的datasets库，通过Python代码直接加载数据集。适用于需要编程处理数据的场景。

pip install datasets

加载数据集示例：

import os
os.environ['HF_TOKEN'] = '修改成自己创建的HF_TOKEN'

from datasets import load_dataset

# 加载公开数据集（如imdb）
dataset = load_dataset("imdb")

如何创建自己的HF_TOKEN

注册huggingface账号，点击settings

进入后在左侧列表，点击进入‘access tokens’

创建token，点击右上角create new token

弹出对话框，选择write，起一个名字即可

通过Hugging Face CLI工具下载

使用命令行工具huggingface-cli下载数据集文件，适合需要离线访问或批量下载的场景。

pip install huggingface_hub
huggingface-cli download dataset_name --local-dir ./data

从网页界面手动下载

访问Hugging Face数据集官网（https://huggingface.co/datasets），搜索目标数据集后：

进入数据集页面
点击"Files"选项卡
选择需要下载的文件版本
通过浏览器直接下载

使用Git下载大型数据集

对于LFS（大文件存储）数据集，需安装Git LFS后克隆仓库：

git lfs install
git clone https://huggingface.co/datasets/dataset_name

流式加载大数据集

对于超大数据集，可使用流式加载避免本地存储：

from datasets import load_dataset

dataset = load_dataset("dataset_name", streaming=True)
for batch in dataset["train"]:
    process(batch)

下载特定子集或配置

某些数据集包含多个子集，可通过config_name参数指定：

dataset = load_dataset("dataset_name", "config_name")

处理下载缓存

默认下载位置为~/.cache/huggingface/datasets。可通过环境变量修改：

export HF_DATASETS_CACHE="/path/to/cache"

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ABB工业机器人编程基础（十二）RobTarget 数据详解

DAMO开发者矩阵

自然语言处理实践

从智能客服到机器翻译，从情感分析到文本生成，NLP技术正深刻改变着我们的生活和工作方式。本文将带您走进NLP的实践世界，探索其背后的技术逻辑与应用场景，为读者揭开这一领域的神秘面纱。例如，电商平台利用文本分类对用户评论进行情感分析，快速识别正面或负面评价，从而优化产品服务。实际应用中，企业常定制专属对话机器人，集成知识图谱以提升专业领域应答能力，例如医疗咨询或法律助手。随着多模态技术和伦理框架的完

DAMO开发者矩阵

行业瞩目！慕尼黑国产连接器展台，中国星坤重磅亮相！

立足本届慕尼黑展会规模领先的国产连接器特装展台，中国星坤将持续以自主创新为内核，打磨高可靠互连产品，稳步拓宽全球市场版图，助力国产元器件品牌站上世界产业舞台中央，与广大合作伙伴携手共赢智能互连新时代。适配 800V 高压整车平台，展出电池包连接器、车载高压接插件、充电互连组件，具备耐高温、抗震动、高绝缘、高安全防护特性，支持整车轻量化专属定制开发。重载防水连接器、端子台、浮动板对板、储能 PACK