在《Python大学实用教程》和《跟老齐学Python:轻松入门》两本书中,都介绍了如何安装第三方库的方法:
pip install package-name
在用pip
安装第三方库或者模块的时候,如果检测到本地的pip
版本过低,会提示升级。有的人觉得升级比较麻烦,就放弃了。
本文就要重点讲一讲,为什么要必须升级pip
。
先说结论,如果该升级的时候不升级,结果是:可能会导致安装某些东西的时候失败;或者安装进程很慢,或者给你带来其他麻烦。
所以,如果不升级,后果很严重。
下面是在Docker中运行Ubuntu 18.04,这个操作系统是2018年发布的,里面默认安装了Python3.6以及pip
的9.0.1版。下面就在这个配置下进行演示。
[itamarst@blake dev]$ docker run -it ubuntu:18.04
root@1a43d55f0524:/# apt-get update
...
root@1a43d55f0524:/# apt-get install --no-install-recommends python3 python3-pip
...
root@1a43d55f0524:/# pip3 --version
pip 9.0.1 from /usr/lib/python3/dist-packages (python 3.6)
环境准备好之后,就安装一个名为cryptography
的库,这个库是PyPI上下载量非常大的一个库,每月都有上百万的下载。
root@1a43d55f0524:/# pip3 install cryptography
Collecting cryptography
Downloading https://files.pythonhosted.org/packages/fa/2d/2154d8cb773064570f48ec0b60258a4522490fcb115a6c7c9423482ca993/cryptography-3.4.6.tar.gz (546kB)
100% |################################| 552kB 1.4MB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "", line 1, in
ModuleNotFoundError: No module named 'setuptools'
----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-6jesygn0/cryptography/
安装失败。
这里的错误说明,pip
要编译cryptography
,必须它要找到setuptools
,但结果没找到,于是报错了。
类似的问题,也不是仅仅发生在安装上面的库,安装其他库也如此,再如:
root@1a43d55f0524:/# pip3 install pyarrow
Collecting pyarrow
Downloading https://files.pythonhosted.org/packages/62/d3/a482d8a4039bf931ed6388308f0cc0541d0cab46f0bbff7c897a74f1c576/pyarrow-3.0.0.tar.gz (682kB)
100% |################################| 686kB 1.1MB/s
Complete output from command python setup.py egg_info:
Traceback (most recent call last):
File "", line 1, in
ModuleNotFoundError: No module named 'setuptools'
----------------------------------------
Command "python setup.py egg_info" failed with error code 1 in /tmp/pip-build-heq6zwd7/pyarrow/
同样的错误。
当然,如果你碰巧这样安装了:
root@1a43d55f0524:/# pip3 install filprofiler
Collecting filprofiler
Downloading https://files.pythonhosted.org/packages/e3/a2/843e7b5f1aba27effb0146c7e564e2592bfc9344a8c8ef0d55245bd47508/filprofiler-0.7.2-cp36-cp36m-manylinux1_x86_64.whl (565kB)
100% |################################| 573kB 1.8MB/s
Installing collected packages: filprofiler
Successfully installed filprofiler-0.7.2
在这里安装了filprofiler 0.7.2
这是一个发布于2020年4月的比较老的filprofiler
库的版本,目前(发表本文的时候)的最新版是2021年2月25日发布的0.16.0版。
这就是说,用老版本的pip
安装老版本的模块或者库,是能够成功的。但是,在不指定版本的时候,模式是安装该模块或库的最新版,则会报错。
安装Python的第三方库,往往需要编译由C/C++/Cython/Rust等开发的程序,为了免去从头开始编译的繁琐,开发者常常向PyPI(Python Package Index)上传已经编译好的代码,即“wheels”,俗称“轮子”,就是在上面的安装中所看到的扩展名是whl
的文件。 如果pip
找到了适用于你本地Python版本和操作系统的轮子,就会下载这个轮子,而不是下载源码。
以Linux为例,为了方便发布Python第三方包的编译结果程序(二进制文件),从而能让Python的“轮子”在Linux操作系统中工作,产生了一个名为manylinux的项目(https://github.com/pypa/manylinux),目前已有三个不同的版本:manylinux1、manylinux2010、manylinux2014,你可以在下载的“轮子”的文件名中看到正在使用哪个变体。例如上面安装filprofiler 0.7.2
时,所下载的“轮子”文件名是filprofiler-0.7.2-cp36-cp36m-manylinux1_x86_64.whl
,这里所使用的就是manylinux1
。
对于pip
来说,老版本的pip
不支持manylinux2010
,当然也不支持manylinux2014
。上面演示中, Ubuntu 18.04默认的pip
太古老了,因此它只支持manylinux1
。 这就把前面安装失败的内部原因揭示出来了。
manylinux2010
和manlinux2014
的.whl
文件。那么,如果要用老版本的pip
安装它,就不支持,于是乎转而寻找源代码——安装失败的演示中都显示下载.gz
文件,即为源代码。在这个列表中,你会发现一个名为pyarrow-3.0.0.tar.gz
的文件。filprofiler
PyPI文件下载列表,会看到有manylinux2010
的.whl
文件,但是没有源程序包,这是因为此第三方包的开发没有上传源代码。如果用老版本的pip
安装,就会从可下载的文件列表中从高版本向低版本注意查找,直到发现有manylinux1
的.whl
安装包为止。所以,同样是用老版本的pip
,有的第三方库安装失败,有的成功了。事实上,多数情况下会失败的。
为了能够用最新版本的第三方包,并且还不需要下载源码自己编译,最好的方法是及时升级pip
。
常规的操作:
pip install --upgrade pip
就这么简单。一般情况下,都能搞定。
如果上面的方法无能为力了,还可以这样做:
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
$ python3 get-pip.py
如果你不打算修改当前环境中的pip
版本,还想用最新的,就只能创建虚拟环境了,在虚拟环境中用最新版本,不会影响其他环境中的pip
版本。
root@1a43d55f0524:/# python3 -m venv myvenv
root@1a43d55f0524:/# . myvenv/bin/activate
(myvenv) root@1a43d55f0524:/# pip --version
pip 9.0.1 from /myvenv/lib/python3.6/site-packages (python 3.6)
(myvenv) root@1a43d55f0524:/# pip install --upgrade pip
Collecting pip
Using cached https://files.pythonhosted.org/packages/fe/ef/60d7ba03b5c442309ef42e7d69959f73aacccd0d86008362a681c4698e83/pip-21.0.1-py3-none-any.whl
Installing collected packages: pip
Found existing installation: pip 9.0.1
Uninstalling pip-9.0.1:
Successfully uninstalled pip-9.0.1
Successfully installed pip-21.0.1
这样,在虚拟环境中,就有了最新版本的pip
,再装前面那两个没有成功的库:
(myvenv) root@1a43d55f0524:/# pip install cryptography filprofiler
Collecting cryptography
Downloading cryptography-3.4.6-cp36-abi3-manylinux2014_x86_64.whl (3.2 MB)
|################################| 3.2 MB 4.5 MB/s
...
Installing collected packages: pycparser, threadpoolctl, cffi, filprofiler, cryptography
Successfully installed cffi-1.14.5 cryptography-3.4.6 filprofiler-0.14.1 pycparser-2.20 threadpoolctl-2.1.0
顺利完成。
看了前面的解释,虽然明白升级pip
的必要了——其实这也足够应付一般操作了,但可能还有一点点疑惑,为什么Linux系统搞出好几个manylinux
的版本?一个不更好吗?为了满足好奇心,我们要从Python的扩展库编译说起,当然是以Linux系统为例。
在Linux系统中,编译好的Python的库必须基于标准C语言库,特别是GNU Libc(又名:glibc),可以用ldd
指令查看:
root@1a43d55f0524:/# cd myenv/lib/python3.6/site-packages
root@1a43d55f0524:/# ldd cryptography/hazmat/bindings/_openssl.abi3.so
linux-vdso.so.1 (0x00007ffdbea7b000)
libpthread.so.0 => /lib/x86_64-linux-gnu/libpthread.so.0 (0x00007fba7b1bf000)
libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007fba7adce000)
/lib64/ld-linux-x86-64.so.2 (0x00007fba7b7b0000)
上面列出的编译好的Python第三方库的依赖中,/lib/x86_64-linux-gnu/libc.so.6
就是前面说的glibc
。
如果基于新版的glibc编译代码,就会用到新版的接口,老版本就不能用了,这就意味着你的代码将无法在较早版本的glibc上运行,即无法在较早的Linux发行版上运行。
这就出现了版本兼容性问题,为此不同的工具提供了不同的解决方案。比如:Conda在编译的时候将所有旧版本的glibc头文件都包含进去,用这种方式就能兼容各种Linux版本。
PyPI中的二进制“轮子”则是以在老版本的Linux上进行编译来解决此问题,这就是manylinux
项目的起源。比如:
这样,在相应版本的glibc
进行编译,就能与对应版本的Linux匹配了。
以上面列出的 CentOS 为例,每个版本都有各自的声明周期,对应于相应版本的操作系统,所以,就需要发布新的pip
。
勿需多言了,结论就是:必须升级pip
。
否则,安装第三方库就得自己编译,那将浪费很多时间。
[1]. Python大学实用教程. 齐伟. 北京:电子工业出版社
[2]. 跟老齐学Python:轻松入门. 齐伟. 北京:电子工业出版社
[3]. https://pythonspeed.com/articles/upgrade-pip/
[4]. https://www.itdiffer.com,此网站上有关于[1]、[2]的完整资料,包括但不限于勘误、说明、购买和部分视频等。