NLP自然语言处理中英文分词工具集锦与基本使用介绍

一、中文分词工具

(1)Jieba

(2)snowNLP分词工具

(3)thulac分词工具

(4)pynlpir 分词工具

NLP自然语言处理中英文分词工具集锦与基本使用介绍_第1张图片

(5)StanfordCoreNLP分词工具

from stanfordcorenlp import StanfordCoreNLP
with StanfordCoreNLP(r'E:\Users\Eternal Sun\PycharmProjects\1\venv\Lib\stanford-corenlp-full-2018-10-05', lang='zh') as nlp:
print("stanfordcorenlp分词:\n",nlp.word_tokenize(Chinese))

(6)Hanlp分词工具

分词结果如下:

NLP自然语言处理中英文分词工具集锦与基本使用介绍_第2张图片

二、英文分词工具

1. NLTK:

NLP自然语言处理中英文分词工具集锦与基本使用介绍_第3张图片

from nltk.tokenize import sent_tokenize
text="""Hello Mr. Smith, how are you doing today? The weathe is great, and city is awesome. The sky is pinkish-blue. You shouldn't eat cardboard"""
tokenized_text=sent_tokenize(text)
print(tokenized_text)

二者之间的区别在于,如果先分句再分词,那么将保留句子的独立性,即生成结果是一个二维列表,而对于直接分词来说,生成的是一个直接的一维列表,结果如下:

2. SpaCy:

NLP自然语言处理中英文分词工具集锦与基本使用介绍_第4张图片

import spacy
nlp = spacy.load('en_core_web_sm') # or whatever model you have installed
raw_text = 'Hello, world. Here are two sentences.'
doc = nlp(raw_text)
sentences = [sent.string.strip() for sent in doc.sents]

 

3. StanfordCoreNLP:

分词结果

你可能感兴趣的:(自然语言处理,学术研究,自然语言处理,人工智能,nlp)