中文分词工具

jieba

import jieba
import re

sentence = '叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色。'
sentence = re.sub('[,。?!、]', '', sentence)
result = list(jieba.cut(sentence))
print(result)
# ['叶子', '本是', '肩并肩', '密密', '地', '挨着', '这', '便', '宛然', '有', '了', '一道', '凝碧', '的', '波痕', '叶子', '底下', '是', '脉脉', '的', '流水', '遮住', '了', '不能', '见', '一些', '颜色']

thulac

import thulac
import re

sentence = '叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色。'
sentence = re.sub('[,。?!、]', '', sentence)

thu = thulac.thulac(seg_only=True)

result = thu.cut(sentence, text=True)

print(result.split())
# ['叶子', '本', '是', '肩', '并肩', '密密', '地', '挨着', '这', '便', '宛然', '有', '了', '一', '道', '凝碧', '的', '波痕', '叶子', '底下', '是', '脉脉', '的', '流水', '遮住', '了', '不', '能', '见', '一些', '颜色']

pkuseg

import pkuseg
import re

sentence = '叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色。'
sentence = re.sub('[,。?!、]', '', sentence)

pk_useg = pkuseg.pkuseg()
result = pk_useg.cut(sentence)

print(result)
# ['叶子', '本', '是', '肩并', '肩密', '密地', '挨着', '这', '便', '宛然', '有', '了', '一道', '凝碧', '的', '波痕', '叶子', '底下', '是', '脉脉', '的', '流水', '遮住', '了', '不', '能', '见', '一些', '颜色']

pyhanlp

from pyhanlp import HanLP
import re

sentence = '叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色。'
sentence = re.sub('[,。?!、]', '', sentence)

result = HanLP.segment(sentence)

print([term.word for term in result])
# ['叶子本', '是', '肩并肩', '密密', '地', '挨着', '这', '便', '宛然', '有', '了', '一道', '凝碧', '的', '波痕', '叶子', '底下', '是', '脉脉', '的', '流水', '遮住', '了', '不能', '见', '一些', '颜色']

snownlp

from snownlp import SnowNLP
import re

sentence = '叶子本是肩并肩密密地挨着,这便宛然有了一道凝碧的波痕。叶子底下是脉脉的流水,遮住了,不能见一些颜色。'
sentence = re.sub('[,。?!、]', '', sentence)

result = SnowNLP(sentence)

print(result.words)
# ['叶子', '本', '是', '肩', '并肩', '密密地', '挨着', '这', '便', '宛然', '有', '了', '一', '道', '凝', '碧', '的', '波痕', '叶子', '底下', '是', '脉脉', '的', '流水', '遮住', '了', '不', '能', '见', '一些', '颜色']

你可能感兴趣的:(python)