Python进阶核心知识点(3)- 从sys.path入手,搞懂python import导包机制

各位朋友,好久没有有更新了。前段时间因为换了一个新的工作,一直在努力适应新环境。从很久之前开始关注我的朋友都知道我本身是学机械的,大概2-3年前开始学习python。刚开始是打算用这个利器做一些工作中的用到的数据分析和数据挖掘之类的,后来又慢慢的学习了机器学习,使用Python中的sklearn模块实现机器学习相关的算法。后来又更一步的学习了基于神经网络的深度学习,并结合之前读研的时候做的和计算机视觉相关的课题入坑了CV。现在算是转行了,在一家半导体软件系统集成公司做视觉算法开发。主要的工作就是开发基于深度学习的视觉算法用于半导体晶圆制造封测等环节的缺陷检测。
半个多月工作下来,个人感觉人工智能对传统制造业的渗透正在加剧。随着工业时代积累的大量制程数据慢慢被开发和挖掘,制造业正在掀起一场基于AI人工智能的效率革命。而CV计算机视觉作为和工业界联系最紧密的一个AI分支,必将产生大量的需求。从最普通的视觉缺陷检测,到医疗图像诊断,再到最近非常火热的无人驾驶,视觉算法是这些技术背后最核心的模块。视觉甚至可以说是AI最核心的一个分支,这一点从眼睛对人的作用就可以知道了。

好了,不扯淡了。聊聊技术吧

今天就和大家聊聊python代码中import。几乎我们写的每个python代码文件正文部分从import一堆模块开始。大家有没有想过,这个import的工作机理?今天我们就从下面3个问题来详细的探讨一下这个import:

  1. 使用import模块导包的时候,解释器都会去哪里找这个包或者模块?
  2. 如何把自己写.py文件通过import 导入当前的开发环境中 ?
  3. 自己写好的一个项目,传给别人的时候,怎么保证这些项目的文件在对方的环境中顺利运行

我们都知道python中有一些属于内置的库,这些库属于build-in模块,这些库在你安装好python之后就安装好了,不需要在额外安装,使用时导入即可,如 os/sys/math/time等; 还有一些常用的库需要额外安装,如和数据科学相关的numpy/pandas/sklearn等,我们一般都是通过pip install/conda install来安装,安装好了之后一般都是放在主Python或者Anaconda环境下的site-packages里面。使用的时候需要先安装才能导入。有了这些常识,我们可以很容易推测出import一个模块时,解释器都会去哪些位置寻找模块:

  1. 从内置的模块中寻找
  2. 从sys.path包含的路径中寻找

至于sys.path包含有哪些路径,我们可以将sys.path打印出来就可以看到了

import os, sys
print('当前的工作目录为:')
print(os.getcwd())
print("-" * 15)
print('当前的sys.path路径包含:')
for i in sys.path:
    print(i)

结果如下:

>>>
当前的工作目录为:
C:\Users\11_25
---------------
当前的sys.path路径包含:
C:\Users\11_25
C:\Users\11_25\anaconda3\python38.zip
C:\Users\11_25\anaconda3\DLLs
C:\Users\11_25\anaconda3\lib
C:\Users\11_25\anaconda3
C:\Users\11_25\anaconda3\lib\site-packages
C:\Users\11_25\anaconda3\lib\site-packages\locket-0.2.1-py3.8.egg
C:\Users\11_25\anaconda3\lib\site-packages\win32
C:\Users\11_25\anaconda3\lib\site-packages\win32\lib
C:\Users\11_25\anaconda3\lib\site-packages\Pythonwin
C:\Users\11_25\anaconda3\lib\site-packages\IPython\extensions
C:\Users\11_25\.ipython

好了,这样对第一个问题我们就有完整的答案了,即import某个模块时,解释器会按照顺序从内置模块 + sys.path路径中寻找。所谓的按照顺序就是说这些路径是有优先级的。即内置的模块优先级最高,之后的sys.path路径是一个列表,也是有优先级的,其中当前的工作目录优先级最高。

我们如何确认import是按照这个优先级来搜索模块呢?简单,自己写个.py文件测试一下就可以了。上面的sys.path列表中,第一个是当前的目录,我们就在当前的目录下写几个文件测试一下:
我们来一个和内置模块同名的sys.py, 在来一个和之后安装的numpy模块同名的numpy.py。 这两个文件里面都只有一个test方法, 打印当前的工作目录:


image.png

文件内容如下:


image.png

按照上面的所说的寻找顺序,当我们import sys时,我们应该是导入内置的sys,因而调用sys.test时会报错。而对于numpy.py, 因为其位置是位于当前的工作目录,其优先级顺序是大于anaconda里面的site-package里面的正宗numpy,所以我们可以顺利的调用这个山寨版的numpy.py里面的test方法,验证如下:

image.png

OK,第一个问题算是回答并验证完了,同时第二个问题我们也有了答案。我们把自己写的.py文件放到当前的工作目录下就可以导入进来,但是要注意不能和内置的模块同名,也不要和其他第三方模块同名,不然这些第三方模块就无法顺利导入了。

  1. 首先我们运行cmd命令打开终端,在输入python,进入python运行环境。现在当前目录下面没有my_test.py这个文件,我们使用import导入会报错,如下:
image.png
  1. 在当前目录下创建一个my_test.py文件,在里面随意定义一些属性和方法并导入看看是否可以执行
image.png

文件内容如下:


image.png

在次重新打开终端(.py文件写完后有时候需要重启终端才能生效),重复上面的步骤,看看是否导入成功,并尝试调用里面写的属性和方法:

image.png

OK,可以看到能够完美运行!

第三个问题,很多时候我们需要复现别人的项目,同时我们自己如果有一个好的项目,写完放到Github上开源后供别人下载复现,这时候并不知道别人会把这个项目克隆到什么地方,那么怎么保证自己的代码在别人的环境中顺利运行呢?答案的关键还是用上面的sys.path路径。在代码运行之前,我们只要获取到当前项目所在的工作目录,并把这个目录作为路径添加到sys.path即可。上面也说了这个sys.path是个列表,我们直接调用append方法添加当前的环境路径。
就就是我们在github上查看别人的代码时经常看到类似下面的代码,如:

import os, sys
# add python path of PadleDetection to sys.path
parent_path = os.path.abspath(os.path.join(__file__, *(['..'] * 2)))
if parent_path not in sys.path:
    sys.path.append(parent_path)

好了,本次就到这里。
更多文章可以关注WX 公众+号 "Python数据科学家之路“, 我在那里等你到来!

你可能感兴趣的:(Python进阶核心知识点(3)- 从sys.path入手,搞懂python import导包机制)