【huggingface加载数据集】解决报错HTTPSConnectionPool(host=‘huggingface.co‘, port=443)

由于网络原因，无法顺利下载，所以可以去官网手动下载数据文件，然后处理成DatasetDict格式，效果是一样的。

bksheng

1324人浏览 · 2024-06-28 10:52:50

bksheng · 2024-06-28 10:52:50 发布

方式一. 联网下载数据集

# pip install pyarrow
from datasets import load_dataset
dataset = load_dataset(path='glue', name='sst2')

正常情况：

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 67349
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 872
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1821
    })
})

异常报错:

ReadTimeout: (ReadTimeoutError("HTTPSConnectionPool(host='huggingface.co', port=443): Read timed out. (read timeout=10)"), '(Request ID: a16bb2d9-22f4-467e-9900-317e2368f09b)')

方式二. 本地读取数据集

由于网络原因，无法顺利下载，所以直接去官网手动下载数据文件，然后处理成DatasetDict格式，效果一样。

import pandas as pd

# 读取 Parquet 文件
train_df = pd.read_parquet('../data/sst2/train-00000-of-00001.parquet')
validation_df = pd.read_parquet('../data/sst2/validation-00000-of-00001.parquet')
test_df = pd.read_parquet('../data/sst2/test-00000-of-00001.parquet')

# 将 pandas DataFrame 转换为 DatasetDict 格式
from datasets import Dataset, DatasetDict

dataset = DatasetDict({
    'train': Dataset.from_pandas(train_df, preserve_index=False),
    'validation': Dataset.from_pandas(validation_df, preserve_index=False),
    'test': Dataset.from_pandas(test_df, preserve_index=False)
})

输出：

DatasetDict({
    train: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 67349
    })
    validation: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 872
    })
    test: Dataset({
        features: ['sentence', 'label', 'idx'],
        num_rows: 1821
    })
})

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

OpenClaw 远程部署并接入飞书效率翻倍！UU 远程成了我的 “远程开发外挂”

DAMO开发者矩阵

三菱R系列PLC高端应用案例：远程IO与机器人通信、触摸屏配方及多屏操作

DAMO开发者矩阵

【量化工具推荐】2026年期货量化交易维护工具推荐：10款工具使用指南

本文推荐10款期货量化交易专用维护工具，从易用性、功能完整性等维度进行对比分析。排名前三的工具分别是：TqSdk（简单易用、内置监控）、企业微信机器人（实时通知）、VN.Py（功能全面）。其他工具包括日志记录、系统监控、数据备份等专用工具。文章建议根据需求和经验水平选择工具，入门用户推荐TqSdk和聚宽，专业用户可选择VN.Py等。维护策略强调建立监控系统、日志记录和数据备份，并定期检查系统状态。