1. MOSI (Multimodal Opinion-level Sentiment Intensity)

  • 简介: MOSI是一个多模态情感分析数据集,包含93个视频片段,每个片段都有多个模态的数据:文本(转录)、音频和视觉(面部表情等)。

  • 数据来源: 视频片段来自YouTube,主题涵盖电影评论。

  • 标注: 每个片段的标注包括情感极性和情感强度,情感极性分为正面、负面和中性,情感强度是一个连续值,范围从-3(非常负面)到+3(非常正面)。

  • 应用: MOSI广泛用于多模态情感分析、情感强度预测等任务。

2. MOSIE (Multimodal Opinion Sentiment and Emotion Intensity)

  • 简介: MOSIE是MOSI的扩展版本,增加了更多的情感类别和更细粒度的标注。

  • 数据来源: 同样来自YouTube的电影评论视频片段。

  • 标注: 除了情感极性和强度外,MOSIE还标注了更具体的情感类别,如愤怒、悲伤、快乐等,情感强度也是一个连续值。

  • 应用: MOSIE用于更复杂的情感分析任务,如多模态情感分类、情感强度预测和情感类别识别

3. Emotion Lines 

  • 简介:是一个用于情感分析和对话情感理解的数据集,专注于捕捉对话中的情感变化。它旨在帮助研究对话系统中的情感识别和情感动态建模。
  • 数据来源:Emotion Lines 数据集是从电视剧剧本和开放域对话中收集的。

        包含两部分: Friends:来自经典美剧《老友记》(Friends)的对话。

                               EmotionPush:来自社交媒体平台(如Facebook Messenger)的真实对话。

        规模:总共包含 29,245 条对话语句。

                   每条语句都标注了情感标签。

  • 情感标签: 数据集使用 6 种基本情感类别(基于Ekman的情感分类):快乐(Happy),悲伤(Sad),愤怒(Angry),惊讶(Surprise),恐惧(Fear),厌恶(Disgust),还包括一个 中性(Neutral) 标签。

  • 特点:数据集不仅标注了单句情感,还保留了对话的上下文信息,便于研究情感在对话中的动态变化。

  • 结构:每条数据包括:对话上下文(前几句话),目标语句(需要标注情感的句子),情感标,说话者信息。

Logo

DAMO开发者矩阵,由阿里巴巴达摩院和中国互联网协会联合发起,致力于探讨最前沿的技术趋势与应用成果,搭建高质量的交流与分享平台,推动技术创新与产业应用链接,围绕“人工智能与新型计算”构建开放共享的开发者生态。

更多推荐