当我们想要进行类似机器学习、大数据这样的分析编程时,如果是在例如 PyChram 这样的编译器上写,一般是要把整个代码文件写完,然后再运行。这样的缺点就是如果中间某行出现了 Bug,我们就要排除,然后再重新运行整个文档,或者是 Debug。
但是如果是在 Jupyter Notebook 上,我们就可以一小块一小块的去运行,碰到不合预期的结果,可以很方便的回到特定的单元,去输出各种变量,排查错误。
这种感觉就像是搭积木,一小块一小块的去写,这样慢慢一步一步地把整个代码写完整,再一齐运行。而且在代码的各个单元之间,还能插入 Markdown 文本,对于一些框架的学习,和代码阅读也是很方便的。
这篇文章,浅显地讲一下 Jupyter 的一些特性,安装的部分也很简单,但是这里没有讲,可以容易地在网上就找到教程。
即使是大神,也会碰到不懂或者不熟悉的函数或者类。在使用 Python 的时候,我们常常利用 help()
函数来获得关于函数的信息。
但是在 Jupyter 上,我们只需要使用问号符 ?
,就可以迅速地获得这些信息。如果想要获得源码的时候,可以利用双问号符 ??
:
注:如果双问号符
??
并没有显示源码,通常是因为该对象并没有在 Python 中执行,而使用 C 或其他编程语言。这种情况下会输出与单问号符?
一样的结果。
我们在使用 PyCharm 或者类似的编译器时,都能够利用
来补全对象、模块或者函数、类、变量的名词,这样就大大的加快了我们的速度。每一次敲击
都会带来一种莫名的酸爽。
在 Jupyter Notebook 上面也可以,当你习惯了如此编写代码,你会感觉不能用
的时候连写代码都了无生趣了。
通配符匹配:当我们知道首字母时,就可以直接用
让 Jupyter 帮我们匹配后面的字母。但是当只知道结尾的字母时,我们可以使用通配符(*) 和问号符 ?
来找到各种组合:
通配符(*)可以放在任意的位置
在 Jupyter 上还有一种被称为 Magic Commands 的命令,是为了方便我们高效地进行数据分析的工作而设计的。它使用一个前缀符号 %
来修饰,其中一个百分号 %
代表只影响接下来的一行代码,而两个百分号 %%
代表对当前单元的影响。
(1)代码运行效率 %time 和 %timeit
平时使用 PyCharm 时,想要测试不同代码的执行速度,我们会使用 time
模块来赋值两个变量,通过输出两者之差来获得代码的执行时间。但是在 Jupyter 上,我们可以很简单的执行这种操作,通过利用 %time 和 %timeit:
In[1]: %timeit sum(range(100))
1.6 µs ± 52 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)
# Jupyter 会自动根据代码运行的时间花费,调整重复的次数。
In[2]: %%timeit
total = 0
for i in range(1000):
for j in range(1000):
total += i * (-1) ** j
561 ms ± 6.4 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
不过,有时候重复执行代码的时间花费相差巨大,例如排序算法,当第二次执行的时候,数组已经是排好序的,代码的执行时间就会变很少。对于这种情况,我们使用 %time
In[1]: import random
L = [random.random() for i in range(100000)]
%timeit L.sort()
3.3 ms ± 316 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
In[2]: L = [random.random() for i in range(100000)]
print("排序乱序列表:")
%time L.sort()
排序乱序列表:
Wall time: 35 ms
In[3]: print("排序顺序列表:")
%time L.sort()
排序顺序列表:
Wall time: 3 ms
In[4]: %%time
total = 0
for i in range(1000):
for j in range(1000):
total += i * (-1) ** j
Wall time: 691 ms
此外,还有很多的 Magic Command,可以使用 %magic
命令来,查看文档。
Python Data Science Handbook, Jake VanderPlas ↩︎