情感分析常用数据集总结（待补充）

情感分析常用数据集

xue.py

1101人浏览 · 2025-02-21 16:44:40

xue.py · 2025-02-21 16:44:40 发布

1. MOSI (Multimodal Opinion-level Sentiment Intensity)

简介: MOSI是一个多模态情感分析数据集，包含93个视频片段，每个片段都有多个模态的数据：文本（转录）、音频和视觉（面部表情等）。
数据来源: 视频片段来自YouTube，主题涵盖电影评论。
标注: 每个片段的标注包括情感极性和情感强度，情感极性分为正面、负面和中性，情感强度是一个连续值，范围从-3（非常负面）到+3（非常正面）。
应用: MOSI广泛用于多模态情感分析、情感强度预测等任务。

2. MOSIE (Multimodal Opinion Sentiment and Emotion Intensity)

简介: MOSIE是MOSI的扩展版本，增加了更多的情感类别和更细粒度的标注。
数据来源: 同样来自YouTube的电影评论视频片段。
标注: 除了情感极性和强度外，MOSIE还标注了更具体的情感类别，如愤怒、悲伤、快乐等，情感强度也是一个连续值。
应用: MOSIE用于更复杂的情感分析任务，如多模态情感分类、情感强度预测和情感类别识别

3. Emotion Lines

简介：是一个用于情感分析和对话情感理解的数据集，专注于捕捉对话中的情感变化。它旨在帮助研究对话系统中的情感识别和情感动态建模。
数据来源：Emotion Lines 数据集是从电视剧剧本和开放域对话中收集的。

包含两部分： Friends：来自经典美剧《老友记》（Friends）的对话。

EmotionPush：来自社交媒体平台（如Facebook Messenger）的真实对话。

规模：总共包含 29,245 条对话语句。

每条语句都标注了情感标签。

情感标签： 数据集使用 6 种基本情感类别（基于Ekman的情感分类）：快乐（Happy），悲伤（Sad），愤怒（Angry），惊讶（Surprise），恐惧（Fear），厌恶（Disgust），还包括一个 中性（Neutral） 标签。
特点：数据集不仅标注了单句情感，还保留了对话的上下文信息，便于研究情感在对话中的动态变化。
结构：每条数据包括：对话上下文（前几句话），目标语句（需要标注情感的句子），情感标，说话者信息。

DAMO开发者矩阵

DAMO开发者矩阵，由阿里巴巴达摩院和中国互联网协会联合发起，致力于探讨最前沿的技术趋势与应用成果，搭建高质量的交流与分享平台，推动技术创新与产业应用链接，围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐

ClaudeCode部署与基础使用

DAMO开发者矩阵

人形机器人爆发前夜，宇树科技5500台出货量意味着什么？

DAMO开发者矩阵

强化学习Actor/Learner框架介绍(lerobot版)

原始文章发表在知乎，格式会规正一些，可阅读：《近期看了一些强化学习相关的东西，也复现了一些算法，在具身操作场景，目前详细研究过的强化框架有两个：RLinf：是清华出的一个框架，主要应用场景在仿真场景，里面集成了libero/maniskill等仿真环境，openvla-oft/pi0.5等主流vla模型的强化学习应用，ppo/grpo等经典强化学习算法。所以对一些大型VLA模型在仿真场景的强化学习