《利用Python进行数据分析》 附录 B.4 使用IPython进行高效代码开发的技巧

附录B 更多IPython系统相关内容


B.4 使用IPython进行高效代码开发的技巧

对于很多用户来说,以易于开发、调试和最终交互使用的方式编写代码可能是一种习惯的改变。代码重新加载等程序细节可能需要一些调整以及编码风格方面的考虑。

因此,实现本节中所介绍的大多技巧更多的是艺术而不是科学,并且需要你进行一些实验来确定一种对你有效的Python代码编写方法。最终,你希望以易于迭代使用的方式构建代码,并能够尽可能轻松地探索程序或函数运行的结果。我发现使用IPython设计的软件比仅用作独立命令行应用程序的代码更易于使用。这一点变得尤为重要,特别是出现了问题使你不得不对程序中你自己或别人在数月或数年前写的代码进行检查的时候。


B.4.1 重载模块依赖项

在Python中,当你输入import some_lib时,some_lib中的代码将被执行,并且所有定义的变量、函数和导入都将存储在新创建的some_lib模块命名空间中。之后你再输入import some_lib时,你将获得对现有模块命名空间的引用。在交互式IPython代码开发中可能会遇到潜在的困难,比如当你以%run命令运行一个依赖于其他模块的脚本,而依赖的模块你可能已经做了修改的时候。假设我在test_script.py中有以下代码:

import some_lib
x = 5
y = [1, 2, 3, 4]
result = some_lib.get_answer(x, y)

如果要执行%run test_script.py,然后修改some_lib.py,则下次执行%run test_script.py时,由于Python模块系统是“一次加载”的,你仍然会得到旧版本的some_lib.py。这种行为不同于其他数据分析环境,如MATLAB,它会自动传播代码的变更。为了解决这个问题,你有几个选择。

  • 第一种方法是在标准库的importlib模块中使用reload函数:5
import some_lib
import importlib
importlib.reload(some_lib)

上面的代码保证你每次运行test_script.py时都会得到一个新的some_lib.py副本。显然,如果依赖关系变得更深,那么在整个地方插入reload的用法可能有点棘手。对于这个问题,IPython有一个特殊的dreload函数(不是一个魔术函数),用于模块的“深层”(递归)重载。如果我要运行some_lib.py然后输入dreload(some_lib),它将尝试重新加载some_lib及其所有依赖项。不幸的是,并不是所有的情况下都有效,时候不得不重新启动IPython。


B.4.2 代码设计技巧

这里并没有什么简单的方法,但是有一些高级的准则,这些准则是我在自己工作中发现的。


B.4.2.1 保持相关对象和数据的存在

看到结构有点像下面这个简单的例子的命令行代码并不罕见:

from my_functions import g
def f(x, y):
    return g(x + y)
def main():
    x = 6
    y = 7.5
    result = x + y
if __name__ == '__main__':
    main()

如果我们要在IPython中运行该程序,你觉得什么地方可能会出错?完成后,在main函数中定义的结果或对象都不会在如果我要运行some_lib.py然后输入dreload(some_lib),它将尝试重新加载some_lib及其所有依赖项。不幸的是,并不是所有的情况下都有效,时候不得不重新启动IPython。


B.4.2 代码设计技巧

这里并没有什么简单的方法,但是有一些高级的准则,这些准则是我在自己工作中发现的。


B.4.2.1 保持相关对象和数据的存在

看到结构有点像下面这个简单的例子的命令行代码并不罕见:

from my_functions import g
def f(x, y):
    return g(x + y)
def main():
    x = 6
    y = 7.5
    result = x + y
if __name__ == '__main__':
    main()

如果我们要在IPython中运行该程序,你觉得什么地方可能会出错?完成后,在main函数中定义的结果或对象都不会在IPython shell中访问。更好的方法是直接在模块的全局命名空间中,执行main中所有代码(如果你想要让模块也变得可导入的话,则在if__name__=='main':代码块中执行)。这样,当你运行代码时,你就能够看到main中定义的所有变量。这种方式和在Jupyter notebook中在代码单元内定义顶层变量的方式是等价的。


B.4.2.2 扁平优于嵌套

深度嵌套的代码让我联想到洋葱一层层的皮。在测试或调试某个功能时,为了达到感兴趣的代码,必须剥下多少层洋葱?”扁平优于嵌套“的观念是Python之禅的一部分,开发交互式代码的时候这种观念依然有用。使函数和类尽可能地解耦并模块化,可以使得它们更易于测试(如果你正在编写单元测试)、调试以及交互式使用。


B.4.2.3 克服对长文件的恐惧

如果你有Java背景(或者其他什么语言),你可能已经知道要保持文件短小。在很多语言中,这听起来只是个建议,冗长通常是一种不好的"代码味道",这表明重构和重组可能是必要的。但是,在使用IPython开发代码的同时,使用10个小但内部关联的文件(每个文件不超过100行)比两三个更长的文件可能会让你感到更加头痛。更少的文件意味着更少的模块重新加载,并且在编辑时也减少了文件之间的跳跃。我发现维护更大的模块,使每个模块都具有很高的内部凝聚力,更加有用也更加Pythonic。向解决方案进行迭代之后,有时候将较大的文件重构为较小的文件是有意义的。
显然,我不支持将这个论点推向极端,这将会把你的所有代码放在一个单一的怪异


你可能感兴趣的:(《利用Python进行数据分析》 附录 B.4 使用IPython进行高效代码开发的技巧)