自然语言处理工具之 HanLP 鸟瞰

简介

HanLP(Han Language Processing) 是一系列模型与算法组成的自然语言处理(Natural Language Processing, NLP)工具包,由大快搜索主导并完全开源,目标是普及自然语言处理在生产环境中的应用。

自然语言处理技术优势:

支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词调、词性标注)、命名实体识别(中国人民、音译人民、日本人民,地名,实体机构名识别)、关键词提取、自动摘要、短语提取、拼音转换、简繁转换、文本推荐、依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。提供 Lucene 查件,兼容 Solr 和 ElasticSearch。

安装与示例

安装并下载数据

python3 -m pip install pyhanlp
from pyhanlp import * # 运行时会自动下载数据,运行依赖 jdk < 1.8
  1. 分词和词性标注
sentence = "剑在人在,优胜劣汰。"
s_hanlp = HanLP.segment(sentence)
for term in s_hanlp:
    print(term.word, term.nature)
  1. 关键词提取
document = u'''
自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。
它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。
...
'''
doc_keyword = HanLP.extractKeyword(document, 3)
for word in doc_keyword:
    print(word)
研究
自然语言
自然语言处理
  1. 摘要提取
doc_keysentence = HanLP.extractSummary(document, 3)
for key_sentence in doc_keysentence:
    print(key_sentence)

资源

链接:

  • Github 地址:https://github.com/hankcs/HanLP。
  • 官网地址:http://hanlp.linrunsoft.com/
  • 自然语言处理基础技术工具篇之 HanLPhttps://zhuanlan.zhihu.com/p/51419818

你可能感兴趣的:(自然语言处理,人工智能)