Python学习——jieba分词库和time模块

项目需要用到分词,所以找了一天合适的分词库,网上推荐最多的是jieba分词,在linux环境下安装很方便,输入命令:

pip install jieba 

即可。使用更为方便:

import jieba

data=“这是一个让人增长见识的项目”

seg_list=jieba.cut(data,cut_all=False)   #目前我只需要使用这个精确模式,还有其他可选模式,可以参考http://www.oschina.net/p/jieba

print '/'.join(seg_list)

结果是:这是/一个/让/人/增长/见识/的/项目


我用Python自带的time模块,统计了一下cut这一句命令运行的时间,数量级是微秒。

还有其他的分词库,我目前用不到,以后应该会需要进行比较。

上边已经提到了time模块,我主要对time.time()、time.clock()、timeit做比较

time.time():返回当前的时间戳。所以用来计算运行时间的话只要把前后时间戳相减即可

time.clock():注意,在不同的系统上含义不同。在UNIX系统上,它返回的是“进程时间”,它是用秒表示的浮点数(时间戳)。而在WINDOWS中,第一次调用,返回的是进程运行的实际时间。而第二次之后的调用是自第一次调用以后到现在的运行时间。(实际上是以WIN32上QueryPerformanceCounter()为基础,它比毫秒表示更为精确)

1
2
3
4
5
6
>>> import time
>>> print ( time . time ( ) , time . clock ( ) )
1359147652.31 0.021184
>>> time . sleep ( 1 )
>>> print ( time . time ( ) , time . clock ( ) )
1359147653.31 0.02168

可以这样区分:
1
2
3
4
5
6
7
8
import sys
 
if sys . platform == 'win32' :
# On Windows, the best timer is time.clock
default_timer = time . clock
else :
# On most other platforms the best timer is time.time
default_timer = time . time

而ipython里的timeit也很好用,直接 %timeit a=a+1,即可计算a=a+1的运行时间
参考网站:http://www.runoob.com/python/att-time-time.html
http://pythoncentral.io/measure-time-in-python-time-time-vs-time-clock/

http://www.oschina.net/p/jieba

你可能感兴趣的:(python,linux)