ltp︱基于ltp的无监督信息抽取模块(事件抽取/评论观点抽取)

无监督信息抽取较多都是使用哈工大的ltp作为底层框架。那么基于ltp其实有了非常多的小伙伴进行了尝试,笔者私自将其归纳为:

  • 事件抽取(三元组)
  • 观点抽取

“语言云” 以哈工大社会计算与信息检索研究中心研发的 “语言技术平台(LTP)” 为基础,为用户提供高效精准的中文自然语言处理云服务。
pyltp 是 LTP 的 Python 封装,提供了分词,词性标注,命名实体识别,依存句法分析,语义角色标注的功能。

  • 技术文档:http://pyltp.readthedocs.io/zh_CN/latest/api.html#id15
  • 介绍文档:https://www.ltp-cloud.com/intro/#introduction
  • 介绍文档:http://ltp.readthedocs.io/zh_CN/latest/appendix.html#id5

需要先载入他们训练好的模型,下载地址

初始化pyltp的时候一定要留意内存问题,初始化任何子模块(Postagger() /NamedEntityRecognizer()等等)都是需要占用内存,如果不及时释放会爆内存。
之前比较好的尝试是由该小伙伴已经做的小项目:liuhuanyong/EventTriplesExtraction,是做三元组抽取的一个实验,该同学另外一个liuhuanyong/CausalityEventExtraction因果事件抽取的项目也很不错,辛苦写了一大堆规则,之

你可能感兴趣的:(个性化推荐与检索,NLP︱R+python,付费-智能写作专栏)