(1)更广泛的Python计算生态采用额外安装方式服务用户,被称为Python第三方库。
(2)Python第三方库按照安装方式灵活性和难易程度有3个方法,分别是pip工具安装、自定义安装和文件安装,最常用且最高效的是pip工具安装。
(3)使用pip安装第三方库需要联网。安装一个库的命令格式如下:
pip install <拟安装库名>
注:绝大部分库都可以通过pip进行安装,不过受限于操作系统编译环境,有少数库无法用pip安装,此时需要采用其它安装方法。
(4)除了进行第三方库安装之外,pip工具还能够对第三方库进行基本的维护。执行“pip -h”将列出pip常用的子命令。(注意,不要在IDLE环境下运行pip程序)
PyInstaller是一个十分有用的Python第三方库,它能够在Windows、Linux、MacOS X等操作系统下将Python源文件打包,变成直接可运行的可执行文件(这样Python程序在没有安装Python的环境中也能运行)。
(1)使用PyInstaller库对Python源文件打包的方法如下:
:\>pyinstaller
执行完毕后,源文件所在目录将生成dist和build两个文件夹,其中build目录是PyInstaller存储的临时文件目录,可以安全删除,最终的打包程序在dist内部与源文件同名的目录中(目录中其它文件时可执行文件的动态链接库)
(2)可以通过“-F”参数(建议每次打包都选择该参数)对Python源文件生成一个独立的可执行文件,方法如下:
:\>pyinstaller -F
(3)使用PyInstaller库需要注意以下问题:
①文件路径中不能出现空格和英文句号(.)。
②源文件必须是UTF-8编码,暂不支持其它编码类型。采用IDLE编写的源文件都保存为UTF-8编码形式,可直接使用。
(4)pyinstaller命令的常用参数:
参数 |
功能 |
-h,--help |
查看帮助 |
--clean |
清理打包过程中的临时文件 |
-D,--onedir |
默认值,生成dist目录 |
-F,--onefile |
在dist文件夹中只生成独立的打包文件 |
-i <图标文件名.ico> |
指定打包程序使用的图标(icon)文件 |
(1)jieba是Python中一个重要的第三方中文分词函数库,能够将一段中文文本分割成中文词语的序列。
(2)jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
(3)jieba库支持三种分词模式:
①精确模式:将句子最精确地分开,适合文本分析。
②全模式:把句子中所有可以成词的词语都扫描出来,速度非常快,但是不能解决歧义。
③搜索引擎模式:在精确模式的基础上对长词再次切分,提高召回率,适合用于搜索引擎分词。
(4)对中文分词来说,jieba库只需要一行代码即可;英文文本不存在分词问题。
函数 |
描述 |
jieba.lcut(s) |
精确模式,将字符串分割成等量的中文词组,返回一个列表类型(最常用) |
jieba.(s, cut_all=True) |
全模式,将字符串的所有分词可能全部列出,返回一个列表类型,冗余性极大 |
jieba.lcut_for_search(s) |
搜索引擎模式,在精确模式的基础上对长词进行进一步的切割,返回一个列表类型 |
jieba.add_word(w) |
向分词词典中增加新词w |
需要说明的是,实际上Python的第三方库远不止上图所示的这些。