THUTag是清华大学自然语言处理与社会人文计算实验室实现的,具有关键词抽取与社会标签推荐工具包,提供关键词抽取、社会标签推荐功能,包括TextRank、ExpandRank、Topical PageRank(TPR)、Tag-LDA、Word Trigger Model、Word Alignment Model等算法。
Xinxiong Chen, Deming Ye, Xiance Si, Zhiyuan Liu and Maosong Sun. THUTag: A Package for Keyphrase Extraction and Social Tag Suggestion. 2016.
--------------------------------------------------------------------------------------------------------------------------------------------------------------------
其自带数据“Douban Post Dataset (M_d=3,select the three tags with the highest value),数据格式:
dataType=DoubanPost :
{"doubanTags":{"tag1":weight,"tag2":weight,"tag3":weight,...},"id":"document id","content":"document content","tags":[empty],"timestamp":0,"resourceKey":"","title":"document title","userId":"","extras":""} (Focus on books)
Example :
{"doubanTags":{"文化":5,"献给非哲学家的小哲学":6,"哲学":29,"法国":17},"id":"1000047","content":"全球化是必然趋势?仁者见仁,智者见智。有人惊呼:“狼来了!”有人担忧:“怎么办?”还有人在思考:“对世界来说,经济可以全球化,甚至货币也可以一体化,但文化则要鼓励多元化。”是的,只有本着文化多元化的精神,在尊重其他民族文化的同时,自身才能获得不断的发展与丰富。法国人做出了自己的探索与努力。今天,您面前的这一套“法兰西书库·睿哲系列”为您打开了一扇沟通的窗口。他山之石,可以攻玉。我们希望这样的对话可以走得越来越远。","tags":[],"timestamp":0,"resourceKey":"","title":"献给非哲学家的小哲学 睿哲系列","userId":"","extras":""} (Demo file is bookPost70000.dat)”
测试结果如下:
Algorithm Precision Recall F1
PMI 0.38962 0.45730 0.36692
WTM 0.36828 0.45131 0.35410
KNN 0.33910 0.37885 0.31103
TAM 0.30758 0.34045 0.28093
NaiveBayes 0.27064 0.30223 0.24671
NoiseTagLdaModel 0.20956 0.20757 0.18054
TagLdaModel 0.15756 0.16646 0.14054
对于关键字抽取算法,其readme文档中提供的准确率结果如下:
其自带数据集“Post Dataset ,(M_d=2,select the two keywords with the highest value),数据格式:(之前认为是解析html,后来发现错了,解析的是json,尴尬)
dataType=KeywordPost :
{"date": "news date","summary":"news summary","source":"news source","id":"document id","content":"document content","title":"news title","resourceKey":"","extras":"","userId":"","tags":["tag1","tag2","tag3",...]} (Focus on news)
Example :
{"date":"2010-6-12 3:39:39","summary":"核心提示:重庆市政府公众信息网发布消息称,经2010年5月13日市政府第70次常务会议通过,给予文强、陈洪刚二人行政开除处分。","source":"http://news.163.com/10/0612/03/68USU60D000146BD.html","id":"0","content":"重庆晚报6月11日报道 昨日,市政府公众信息网发布消息称,经2010年5月13日市政府第70次常务会议通过,给予文强、陈洪刚二人行政开除处分。\n今年4月14日,市第五中级人民法院以受贿罪,包庇、纵容黑社会性质组织罪,巨额财产来源不明罪,强奸罪数罪并罚判处文强死刑,剥夺政治权利终身,并处没收个人全部财产。5月21日,市高级人民法院对文强案二审宣判,依法驳回文强上诉,维持一审的死刑判决。\n2月25日,市公安局交警总队原总队长陈洪刚受贿案在市第五中级人民法院一审宣判。陈洪刚因犯受贿,包庇、纵容黑社会性质组织,巨额财产来源不明,伪造居民身份证罪,数罪并罚,被判处有期徒刑20年,没收个人财产40万元人民币,追缴赃款326万余元及不明来源财产584万余元。记者 李伟\n","title":"重庆市政府给予文强行政开除处分","timestamp":0,"resourceKey":"","userId":"","tags":["文强","重庆"],"extras":""} (Demo file is KeywordPost.dat)“
Algorithm Precision Recall F1
WAM 0.30735 0.43726 0.34747
WAMsample 0.29424 0.41814 0.33254
WAMwithtitleInstead 0.26571 0.37286 0.29849
ExpandRankKE 0.22818 0.31578 0.25461
TPR 0.21913 0.3060 0.24551
TFIDF 0.25459 0.20083 0.21876
Textpagerank 0.19833 0.22971 0.20837
--------------------------------------------------------------------------------------------------------------------------------------------------------------------
一、ExpandRank
原文:Single Document Keyphrase Extraction Using Neighborhood Knowledge Xiaojun Wan and Jianguo Xiao
思想:textrank的扩展,试图解决仅依靠单篇文章结构的共现窗口产生的噪声问题。对每一篇文章都选取一定数目的邻居文章作为补充信息,作为对单篇文章统计的补充。
步骤:
1.邻居文档的构建:基于相似文章搜索技术
2.关键字抽取,包括:
1)邻居级词语抽取,对邻居文档基于图算法(textrank)构建潜在关键词网络
2)文档级关键词抽取,基于打分函数抽取关键词
对比传统和方法的优势:
一定程度上解决解决了对统计方法提取关键字的依赖,扩展了只依靠单篇文章结构的textrank,提高了准确率。
缺点:
由于邻居文档选取的不确定性会产生语义漂移问题。
(由于readme中提起的报告位置并未生成报告,而且未能看到最后结果文件,并且运行时间超过十分钟仍未结束,所以不知其实际效果如何...)
二.WAM:
原文:Automatic Keyphrase Extraction by Bridging Vocabulary Gap Zhiyuan Liu, Xinxiong Chen, Yabin Zheng, Maosong Sun
思想:将关键词抽取问题看成翻译问题,原文和关键此均描述一个对象,只是表述成了不同语言,因此采用统计机器翻译的方法来解决关键词抽取问题。
步骤:
1.抽取标题或者总结,与原文当组成翻译对
2.训练翻译模型:利用词语对其模型,使用统计机器翻译的方法(IBM1),计算给定原文词汇后得道标题中词汇或者总结中词汇的后验概率
3.利用文中提出的公式,实现关键词抽取
对比传统和方法的优势:
一定程度上解决解决了对统计方法提取关键字的依赖,试图解决词汇鸿沟问题(低频关键词抽取或者未现关键词生成问题),提高了准确率。
缺点:
依赖文章标题或总结信息,且依赖翻译模型。
效果:
切分后原文:
卫生部 居民 健康 素养盲目相信 养生 信息
核心 提示 卫生部 新闻发言人 11 谈到 近期 备受 关注 本事 表示 居民 健康 素养 盲目 相信 社会 所谓 养生 保健 信息
晚报 12 日报 卫生部 昨天 上午 召开 例行 新闻发布会 卫生部 新闻 发言人 谈到 近期 备受 关注 本事 表示 老百姓 获得 健康 知识 渠道 越来越 权威 科学 准确 健康 知识获取途径不通
分析 去年 卫生部 新闻中心全国 居民 健康 素养调查 48 居民 具有 健康 素养 盲目 相信 社会 所谓 养生 保健 信息
多年 卫生部 非常 重视健康教育 健康 促进 工作充分利用 手段 传播 健康知识知识 倡导 健康 文明生活方式促进 公众 合理 营养努力提高 群众 自我 自我防范能力
2009 卫生部 卫生部 通告 形式 社会 推荐 81 卫生 科普 图书 各方面 专家 卫生 科普 卫生 保健 图书 进行 平衡 检查 审查 社会 推荐
表示 今后 卫生部 进一步加强健康 教育 健康 促进工作有效 传播 健康 知识积极发挥 大众 媒体 作用发挥专家 作用 特别是 培养一大批科普 专家
卫生部 医疗 服务 监管司长季度 诊疗 人次 12 62 人次 同比 增长 出院 人数 同比 增长
关键字抽取效果:
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
卫生部 居民 健康 素养盲目相信 养生 信息
*------------------------------------------------------------------------------------------------------------------------------------------------------------------*
THUTag个人体会:
1.工程开源,实现了十四种关于关键词抽取、标签推荐的算法。
2.帮助文档较少,github上有一篇readme,未发现工程性的开发文档,个人感觉类似于实验室中口口相传的内部工具
详细使用说明可以参见:http://thulac.thunlp.org/
3.使用者活跃度低,遇到了使用问题求助困难
4.readme提到的部分命令无法使用
5.能写出这个工具的作者们代码能力还是好强的
6.缺乏文档,所以需要从头读代码,学习使用很费劲
7.通俗地讲,没用明白,还是使用其他帮助文档丰富的工具吧.....
本文仅代表个人观点--O(∩_∩)O~