《实验细节》MELD文本预处理

《实验细节》MELD文本预处理

  • 题记
  • 数据集详情
    • 大小
    • 文件结构
    • 文本数据格式
  • 预处理
    • 保存为pickle形式
      • 实现方法
    • 保存为json格式
      • 实现方法

题记

MELD数据集源于EmotionLines[10]数据集,后者是一个纯文本的对话数据集,来自于经典电视剧老友记。MELD数据集包含了与EmotionLines相同的对话,并在此基础上包含了视频、音频和文本的多模态数据。数据集总共包含1443段对话,13708句话语,平均每段对话有9.5句话,每句话平均持续时间为3.6秒。对话片段的每句话被标注为七种情绪标签的其中一个,包括生气、厌恶、悲伤、快乐、中性、惊喜和恐惧。与此同时,每句话也拥有相应的情感标签,分为积极、消极和中性。

数据集详情

大小

12GB

文件结构

你可能感兴趣的:(NLP,python,人工智能)