在 Python 中,将数据可视化有多种选择,正是因为这种多样性,何时选用何种方案才变得极具挑战性。本文包含了一些较为流行的工具以及如何使用它们来创建简单的条形图。
什么是 Matplotlib?
Matplotlib 是众多 Python 可视化包的鼻祖。其功能非常强大,同时也非常复杂。你可以使用 Matplotlib 去做任何你想做的事情,但是想要搞明白却并非易事。我不打算展示原生的 Matplotlib 例子,因为很多工具(特别是 Pandas 和 Seaborn)是基于 Matplotlib 的轻量级封装。
首先,导入模块并将数据读入 budget DataFrame,将数据排序并取前10条。
我们将在所有示例中使用相同的 budget 数据,下面是其中5条:
现在,调整展示风格为更美观的默认设置,并创建图表:
上述代码使用 detail 列的数据完成了创建图表的主要工作,同时展示了 title并移除了 legend 。
下面是将图表存为 png 格式的代码:
基础图表看起来不错,理想情况下,我想对 y 轴再做一些格式化,但是这样做需要使用 matplotlib 的一些功能。虽然现在的图表已是完美可用的可视化图表了,但是仅仅通过 pandas 是不可能完成更多定制的。
Seaborn 是一个基于 matplotlib 的可视化库。它旨在使默认的数据可视化更加悦目。它还旨在简化复杂图表的创建,可以与 pandas 很好地集成。
标准导包及读取数据:
正如你所看到的,必须使用 matplotlib 旋转 x 轴的标题以便可以正常地阅读。从外观上看,图表看起来不错。理想情况下,我想格式化 y 轴上的刻度,但我不知道在不使用 matplotlib 中的 plt.yticks 的情况下,如何实现格式化。
ggplot 与 Seaborn 类似,也是基于 matplotlib 并旨在以简单的方式提高 matplotlib 可视化的视觉感染力。它不同于 seaborn 是因为它是 ggplot2 为 R 语言准备的一个端口。基于这个目标,一些 API 的接口虽然不是很 pythonic 但是功能很强大。
继续导包并读取数据:
现在让我们通过连接几条 ggplot 命令来构造图表:
这似乎看起来有些奇怪 – 尤其是使用 print p 来显示图表。但是,这样相对简单明了。
要弄清楚如何将文本旋转 90 度以及如何将 x 轴上的标签排序,确实要做些深入的挖掘。
最酷的功能是 scale_y_continous, 它可以使标签更美观。
如果你想将图表保存为图片,使用 ggsave可以很轻松地办到:
灰色可能有点多,你可以给它添些色彩。
Bokeh
Bokeh 不同于之前的3个库,它不依赖于 matplotlib 并且实现的是面向现代浏览器的可视化。它的目标是实现交互式的 web 可视化,所以下面的例子非常简单。
导包并读入数据:
bokeh 不同的一方面是我需要明确列出我绘图需要的值。
现在我们可以绘图了。下面的代码将会实现在浏览器中展示包含图表的 HTML 页面,如果想用作其他展示,可以保存其 png 格式的副本。
没找到一种更简单的方式来格式化 y 轴。Bokeh 有很多功能,你可以自己去慢慢发现。
Pygal 用于创建 svg 格式的图表,如果安装了正确的依赖,也可以保存为 png 格式。svg 文件在创建交互式图表时非常有用,同时,使用此工具可以非常容易地创建独特而又极具视觉感染力的图表。
导包及读取数据:
我们需要创建图表类型并做一些基础设置:
有趣的一点是 human_readable ,它可以很好地格式化数据,所以大多数情况下,这个功能“很管用”。
现在我们需要向图表中添加数据,这是与 pandas 集成地不是很紧凑的地方,但是就本次的小数据集来说,可以直接添加数据。数据量很大时,性能可能会是一个问题。
接下来,将文件渲染为 svg 和 png 格式:
大家可以下载 svg 文件,并在浏览器中感受图表的互动效果。
· Pandas 对于简单的图表绘制时非常方便的,但是你需要学习 matplotlib 来实现定制。
· Seaborn 可以支持一些更复杂的可视化方法,但仍需要 matplotlib 的知识来调整。颜色方案是一个不错的功能。
· ggplot 很有前景,但它仍在努力成长中。
· 如果你想建立自己的可视化服务器,bokeh 将是一个强大的工具。但是对于一些简单的脚本,使用 bokeh 就像杀鸡用牛刀一样。
· pygal 在创建互动使 SVG 图表和 PNG 文件方面是独一无二的。它不如基于matplotlib 的解决方案灵活。
第1题:
是否遇到过python的模块间循环引用的问题,如何避免它?
这是代码结构设计的问题,模块依赖和类依赖
如果老是觉得碰到循环引用可能的原因有几点:
1.可能是模块的分界线划错地方了
2.可能是把应该在一起的东西硬拆开了
3.可能是某些职责放错地方了
4.可能是应该抽象的东西没抽象
总之微观代码规范可能并不能帮到太多,重要的是更宏观的划分模块的经验技巧,推荐uml,脑图,白板等等图形化的工具先梳理清楚整个系统的总体结构和职责分工
采取办法,从设计模式上来规避这个问题,比如:
1. 使用 “__all__” 白名单开放接口
2. 尽量避免 import
第2题:
Python中如何定义一个函数
有2种方法:
第1种:
def func(arg, *args, **kwagrs): #普通函数
func_body
return
第2种:
lambda x: x **2 #匿名函数
第3题:
请写出一段Python代码实现删除一个list里面的重复元素
>>> L1 = [4,1,3,2,3,5,1]
>>> L2 = []
>>> [L2.append(i) for i in L1 if i not in L2]
>>> print L2
[4, 1, 3, 2, 5]
运行结果如下图:
第4题:
Python是如何进行内存管理的?
python内部使用引用计数,来保持追踪内存中的对象,Python内部记录了对象有多少个引用,即引用计数,当对象被创建时就创建了一个引用计数,当对象不再需要时,这个对象的引用计数为0时,它被垃圾回收。所有这些都是自动完成,不需要像C一样,人工干预,从而提高了程序员的效率和程序的健壮性。
第5题:
写一个简单的Python socket编程。
socket是用来进行网络编程用的接口,网络编程分为服务器端和客户端
服务器端代码如下:
import socket
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
sock.bind(('localhost', 8001))
sock.listen(5)
while True:
conn, addr = sock.accept()
try:
conn.settimeout(5)
buff = conn.recv(1024)
if buff == '1':
conn.send('Hello, Client...')
else:
conn.send('Please, Go Out...')
except socket.timeout:
print 'Socket Time Out...'
finally:
conn.close()
客户端代码如下:
import socket
import time
sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
sock.connect(('localhost', 8001))
time.sleep(2)
sock.send('1')
print sock.recv(1024)
sock.close()
第6题:
src = "security/afafsff/?ip=123.4.56.78&id=45",请写一段代码用正则匹配出IP。
import re
src = "security/afafsff/?ip=123.4.56.78&id=45"
m = re.search('ip=(\d{1,3}\.\d{1,3}\.\d{1,3}.\d{1,3})', src, re.S) # re.S 改变'.'的行为
print m.group(1)
# 输出结果
>>>
123.4.56.78
运行结果如下: