结巴分词入门

TEST 1

'''
Created on 2018年12月8日

@author: admin
'''

import jieba

'''
cut方法有两个参数
1)第一个参数是我们想分词的字符串
2)第二个参数cut_all是用来控制是否采用全模式
'''

#全模式
word_list = jieba.cut("今天天气真好。小明,我们去远足吧!",cut_all=True)
print("全模式:","|".join(word_list))
#精确模式 , 默认就是精确模式
word_list = jieba.cut("今天天气真好。小明,我们去远足吧!",cut_all=False)
print("精确模式:","|".join(word_list))
#搜索引擎模式
word_list = jieba.cut_for_search("今天天气真好。小明,我们去远足吧!")
print("搜索引擎:","|".join(word_list))
#默认模式
word_list = jieba.cut("今天天气真好。小明,我们去远足吧!")
print("默认模式:","|".join(word_list))

TEST 2

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''


#-*- coding:utf-8 -*-
import jieba

jieba.load_userdict("./dict.txt")
word_list = jieba.cut("今天去远足吗?要不咱们换个地方吧!园小园怎么样?没问题小豆芽")
print("|".join(word_list))

TEST 3

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''


import jieba.analyse as al
 
content = open("./topk.txt","rb").read()
word_topk = al.extract_tags(content,topK=4)
print("|".join(word_topk))

TEST 4

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''


import jieba.posseg as pseg

words = pseg.cut("青岛北京是不错的地方")
for word in words:
    print(word.word,word.flag)

TEST 5

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''


import jieba
#开启并行分词模式,参数为参与并行分词的进程数
#jieba.enable_parallel(2)
#关闭并行分词
#jieba.disable_parallel()
content = open("./topk.txt","rb").read()
words = jieba.cut(content)
print("|".join(words))

TEST 6

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''


#-*- coding:utf-8 -*-
 
import jieba
jieba.set_dictionary("./dict.txt")
content = open("./topk.txt","rb").read()
words = jieba.cut(content)
print("|".join(words))

TEST 7

# *-*coding=utf8*-*
'''
Created on 2018年12月8日

@author: admin
'''

import jieba

result = jieba.tokenize(u'今天天气真好。亲爱的,我们去远足吧!')
for token in result:
    print("word %s\t\t start: %d \t\t end:%d" % (token[0],token[1],token[2]))

dict.txt

园小园 5
小豆芽 3 nr

topk.txt

  看了曹聚仁〔2〕先生的一篇《杀错了人》,觉得很痛快,但往回一想,又觉得有些还不免是愤激之谈了,所以想提出几句异议——


  袁世凯〔3〕在辛亥革命之后,大杀党人,从袁世凯那方面看来,是一点没有杀错的,因为他正是一个假革命的反革命者。


  错的是革命者受了骗,以为他真是一个筋斗,从北洋大臣变了革命家了,于是引为同调,流了大家的血,将他浮上总统的宝位去。到二次革命〔4〕时,表面上好像他又是一个筋斗,从“国民公仆”〔5〕变了吸血魔王似的。其实不然,他不过又显了本相。


  于是杀,杀,杀。北京城里,连饭店客栈中,都满布了侦探;还有“军政执法处”〔6〕,只见受了嫌疑而被捕的青年送进去,却从不见他们活着走出来;还有,《政府公报》上,是天天看见党人脱党的广告,说是先前为友人所拉,误入该党,现在自知迷谬,从此脱离,要洗心革面的做好人了。


  不久就证明了袁世凯杀人的没有杀错,他要做皇帝了。


  这事情,一转眼竟已经是二十年,现在二十来岁的青年,那时还在吸奶,时光是多么飞快呵。


  但是,袁世凯自己要做皇帝,为什么留下他真正对头的旧皇帝〔7〕呢?这无须多议论,只要看现在的军阀混战就知道。他们打得你死我活,好像不共戴天似的,但到后来,只要一个“下野”了,也就会客客气气的,然而对于革命者呢,即使没有打过仗,也决不肯放过一个。他们知道得很清楚。


  所以我想,中国革命的闹成这模样,并不是因为他们“杀错了人”,倒是因为我们看错了人。


  临末,对于“多杀中年以上的人”的主张,我也有一点异议,但因为自己早在“中年以上”了,为避免嫌疑起见,只将眼睛看着地面罢。


  四月十日曹聚仁。


  记得原稿在“客客气气的”之下,尚有“说不定在出洋的时候,还要大开欢送会”这类意思的句子,后被删去了。


  四月十二日记曹聚仁。

你可能感兴趣的:(结巴分词入门)