🧭 一、通用能力评估(多任务、多学科)

数据集名 简介 用途
MMLU (Massive Multitask Language Understanding) 覆盖57个学科领域(历史、生物、法律、数学等) 评估多学科理解能力
AGIEval 模拟中国高考、研究生入学考试等 评估中文学科能力(特别贴近中文场景)
ARC (AI2 Reasoning Challenge) 小学/初中水平的科学问答题 评估推理与常识
HELLASWAG 日常场景的多选推理题 评估常识与推理能力
BBH (Big-Bench Hard) BIG-Bench子集,难度高的任务 挑战模型的极限能力
GSM8K 小学数学题(Grade School Math) 评估模型的数学推理能力
MATH 包括高中、大学级别的数学题 更难,更适合评估数学能力

📖 二、阅读理解与问答任务(QA/NLU)

数据集名 简介 用途
SQuAD v1/v2 英文问答,要求从段落中找答案 经典阅读理解测试
NaturalQuestions (NQ) 来自真实用户搜索问答 检测开放问答能力
TriviaQA 多领域知识问答题 测知识广度与召回能力
HotpotQA 多段落、推理问答 检测模型的多跳推理能力
CMRC2018 中文版SQuAD风格问答 测中文阅读理解能力
DuReader 百度开放的中文问答数据集 真实互联网场景中文QA

💬 三、对话与多轮交互评估

数据集名 简介 用途
DSTC系列 多轮对话挑战赛数据集 对话系统评估
PersonaChat 有人格设定的对话 测评人设一致性
DialogUE 多个任务整合,如意图识别、对话生成等 多功能中文对话测试
MultiWOZ 多领域任务导向对话数据集 对话规划与理解能力

✍️ 四、文本生成、写作类评估

数据集名 简介 用途
XSum 英文极短摘要任务 测试摘要质量
CNN/DailyMail 英文长摘要任务 测试结构化内容理解
TREC 问句分类任务 测问题分类/生成准确性
LEval(LLaMA-Eval) 面向中文大模型的评估体系 支持中文写作/问答/推理/数学等维度

🔧 五、代码生成/推理类数据集

数据集名 简介 用途
HumanEval OpenAI提出,代码补全+测试通过率 代码生成能力评估(如Pass@k)
MBPP 小规模编程问题+自动测试 Python函数生成能力
APPS 包含竞赛题目+复杂问题 高级代码生成挑战

🧠 六、安全性/有害性评估数据集

数据集名 简介 用途
TruthfulQA 检测模型是否会“编造事实” 测事实准确性、幻觉倾向
ToxiGen 测试有害语言生成 有害内容识别
HaluEval 中文大模型幻觉评估 中文场景下的幻觉检测
AdvBench 中文对齐性/鲁棒性挑战集 评估越狱/对齐能力

🔚 总结一句话:

如果你是做模型评估或者开发 LLM 产品,选对数据集 = 抓住了关键能力点!


🎯 按目标推荐数据集:

目的 推荐数据集
通用能力测试 MMLU, AGIEval, BBH
中文模型评估 CMRC, DuReader, AGIEval, LEval
数学/推理能力 GSM8K, MATH, ARC, HellaSwag
对话交互能力 MultiWOZ, DialogUE, PersonaChat
安全性检测 TruthfulQA, ToxiGen, AdvBench
编程模型测试 HumanEval, MBPP, APPS

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐