2019-02-20

一些共识

三级标签,如 ‘话题/事件/秋游’,统一将‘事件’划分为‘类别(category)’, 将‘秋游’划分为‘主题(topic)’。

9.28 keywords&frequency

input:

content.txt, keywords.txt, stopwords.txt

output:

content1...13.txt, keywords1...13.txt, label1...13.txt, doc1...13.txt, pseg1...13.txt, new_keywords1...13.txt, final1...13.txt, final.txt

task:

对keywords.txt(由使用通过doc2vec和tf-idf插值得到的)补充词性标注信息

details:

  1. 手动将content.txt数据集按category分类,分为13个小的content数据集如content1.txt,content2.txt,..., content13.txt。对keywords.txt数据集做同样的操作得到keywords1.txt, keywords2.txt, ..., keywords13.txt。
  2. 对每个小的contentk.txt数据集,分割标签和作文内容,再根据topic进行串联/合并(串联/合并topic相同的作文内容),得到label1.txt, label2.txt, ..., label13.txt和doc1.txt, doc2.txt, ..., doc13.txt。
  3. 对每个小的dock.txt数据集,进行切词、词性标注、过滤停用词、统计词频,以dict的形式存储于pseg1.txt, pseg2.txt, ..., pseg13.txt。
  4. 对每个小的keywordsk.txt数据集,末尾添加‘;.',得到新的new_keywords1.txt, new_keywords2.txt, ..., new_keywords13.txt。(这一步应该是为了之后split keywords的时候省事 但其实制造了多余的中间结果)
  5. 根据每个小的new_keywordsk.txt, 从相应的psegk.txt中按行copy对应词汇的词性和频率,得到final1.txt, final2.txt, ..., final13.txt。
  6. 重新按照格式合并所有的小finalk.txt,得到最终的词性标注结果final.txt

你可能感兴趣的:(2019-02-20)