pyhanlp的使用(在python里调用hanlp分词包)

Pyhanlp的使用(在python里调用hanlp分词包)

这是我第一次写博客,写的不好,请多多见谅。

  • 1.在python下安装pyhanlp
  • sudo pip install pyhanlp
    详见pyhanlp官方文档链接:https://pypi.org/project/pyhanlp/0.1.26/

  • 2.pyhanlp的一些使用方法

  • (1)Hanlp.segment的使用。
  • from pyhanlp import *
  • print HanLP.segment("今天开心了吗?")
  • #输出:[今天/t, 开心/a, 了/ule, 吗/y, ?/w]
  • (2)其它API函数的使用。
  • (pyhanlp里已经含有以下这些功能了,可以直接调用)
 - # API列表
CustomDictionary = LazyLoadingJClass('com.hankcs.hanlp.dictionary.CustomDictionary')
HanLP = SafeJClass('com.hankcs.hanlp.HanLP')
HanLP.Config = JClass('com.hankcs.hanlp.HanLP$Config')
PerceptronLexicalAnalyzer = SafeJClass('com.hankcs.hanlp.model.perceptron.PerceptronLexicalAnalyzer')
DoubleArrayTrieSegment = SafeJClass('com.hankcs.hanlp.seg.Other.DoubleArrayTrieSegment')
AhoCorasickDoubleArrayTrie = SafeJClass('com.hankcs.hanlp.collection.AhoCorasick.AhoCorasickDoubleArrayTrie')
IOUtil = SafeJClass('com.hankcs.hanlp.corpus.io.IOUtil')
TraditionalChineseTokenizer=SafeJClass('com.hankcs.hanlp.tokenizer.TraditionalChineseTokenizer')
  • 调用方法。
  • analyzer=PerceptronLexicalAnalyzer()
    a =analyzer.analyze("今天开心了吗?")
    print a
  • 3.其它更多的功能的实现。
  • 比如繁体分词,自动生成摘要这些hanlp能实现的,但不在以上API函数里面的,我们可以通过以下方法。
  • 首先要在“../pyhanlp/init.py”pycharm文件下通过jclass语句引入更深类路径。比如(我引入的是中文繁体分词这个API函数)
  • TraditionalChineseTokenizer=SafeJClass('com.hankcs.hanlp.tokenizer.TraditionalChineseTokenizer')
  • 然后就可以直接调用了,真的超级棒。
  • print TraditionalChineseTokenizer.segment('三華裔獲得傑出青年獎‘)
  • #输出:[三/m, 華裔/n, 獲得/v, 傑出青年/nz, 獎/n]
    -其它更多的API函数的路径请参考java原代码。链接:https://www.cnblogs.com/shaosks/p/8317611.html

补充:

  • (突然开始写博客的原因是,这几天因为要用到hanlp这个包,走了很多弯路,其实也怪自己没有认认真真看文档,拖了好几天才把这个简单的问题解决,希望看到这篇博文的朋友可以少走一点弯路。也是对自己以后看各种资料要走心的警告吧,如果一直这样子下去,头发真的很快就会脱光了!)

你可能感兴趣的:(学习)