Jupyter+Docker玩转《Python数据分析基础》

近年来，数据分析师成为了一个高薪而又热门的职业，如果你想跨入这一行又没什么编程基础，那么学习Python绝对是一个好的选择。因为Python的代码风格使代码更易于阅读和理解，和其他语言相比，其学习曲线没有那么陡峭。Python的一系列丰富的内建库和附加库可以方便地完成许多一般的数据处理和分析操作，让你可以轻松地一站式完成数据处理与分析任务，从而大大减轻编程的工作量。

图1 封面

开发环境搭建

如果你还是一个不会编程的小白，那么从安装python到下载各种包再到运行起程序的整个过程都够让你喝一壶的了。《Python数据分析基础》书中推荐了Anaconda Python，不过笔者认为安装Anaconda Python依然略显繁琐，下面是笔者总结的只需要三步就能玩转《Python数据分析基础》的具体步骤：

1、安装Docker

Docker是什么？可参考拙作《离不开的工具之Docker开发指南》，简单讲是一个用于环境封装的工具（集装箱）。如果没精力去了解也没关系，你只需要知道Docker用起来很方便就行了。Windows用户从https://www.docker.com/docker-windows下载，Mac用户从https://www.docker.com/docker-mac下载，只需轻点Download Now from Docker Store按钮，按部就班的等待安装完成即可。

2、下载jupyter/scipy-notebook的Docker镜像

Jupyter是什么？Jupyter是一个交互式笔记本（大名鼎鼎的 IPython notebook 是它的原名，大部分入门型的Python书里都会提到它，本书也不例外）。用Jupyter写代码可以自动补全，比记事本高到不知哪里去了，每一段代码（cell）的运行结果能可以根据你的需要（代码）以文字、表、图等方式展现出来，而且会像真正的笔记本一样把结果保留在页面上，以便纵向对比。

然而Jupyter现在已经不只是Python的编辑器这么简单了，实际上它支持40多种编程语言，比如R、Ruby、Javascript、C#、Go、Scala、Erlang、以及新兴的Julia等…… ，根据任务和编程语言的不同，jupyter提供多种了预先打包好的官方镜像（https://hub.docker.com/r/jupyter/），和数据分析和科学计算有关的主要有两个镜像：1、scipy-notebook（https://hub.docker.com/r/jupyter/scipy-notebook/），是纯Python3.x环境；2、datascience-notebook（https://hub.docker.com/r/jupyter/datascience-notebook/）预装了Python、R、Julia，适合更高级的混合式开发。对于本书而言，完成所有的教程只需要安装scipy-notebook镜像，该镜像已经预装了本书所有用到的数据分析库。

介绍了这么多，到底怎么下载呢？其实很简单，只需要敲入一行命令即可 ——

docker pull jupyter/scipy-notebook

3、运行jupyter/scipy-notebook

用docker下载完 scipy-notebook 镜像后，我们敲入以下指令 ——

docker run -it --rm -p 8888:8888 jupyter/scipy-notebook

稍等一下，就会给出提示：

Copy/paste this URL into your browser when you connect for the first time, to login with a token:

http://localhost:8888/?token=84222a835fff50f7sssss9c8bb4a45a2e13dd387a86zzz

我们这时候只需要把最后那一行地址拷贝到浏览器，就可以见到一个搭建好的交互式Python数据分析开发环境了！是不是很简单？

数据分析起步

1、第一行程序

如图2所示，在Jupyter右侧菜单的New下选择Python3

图2 起步

会自动进入Python的命令行交互环境，我们试着敲入第一行代码，然后点击工具条上的 '⏯ Run'按钮，马上就可以看到执行结果。

图3 第一行代码

2、读文件

数据分析的数据来源有很大头是各种类型的文件，从文件中读取数据是基本功，我们先尝试自己读一个自己编写的文件：

（1）在Jupyter主入口的Files选项卡上选择 New -> Text File ，输入几行文字，再选择 File -> Save，会在主目录下看到一个 'untitled.txt' 文件，这就是你刚编辑过的文件，选择该文件，再在工具栏选择 Rename，可以修改其名称，我们把这个文件改名为 'abc.txt'

图4 新建文件

（2）在程序交互区域，输入如下代码 ——

input_file = 'abc.txt'

print("Output #144:")

with open(input_file, 'r', newline='') as filereader:

for row in filereader:

print("{}".format(row.strip()))

（3）点击 'Run'按钮，就可以得到如图5结果：

图5 读文件

3、上传并处理csv文件

（1）我们按第二章开头提供的地址，获取一个名为supplier_data.csv的文件

（2）在Jupyter主入口的Files选项卡上选择 Upload，会弹出文件选择对话框，选好要上传的文件，再点击upload，即可将指定文件传到Jupyter“服务器”上。

图7 上传文件

（3）在程序交互区，输入如下代码

import sys import pandas as pd

input_file = 'supplier_data.csv'

output_file = 'abc.csv'

data_frame = pd.read_csv(input_file)

print(data_frame)

data_frame.to_csv(output_file, index=False)

（4）点击 'Run'按钮，就可以看到格式化好的数据。并且在Jupyter的文件区我们还可以看到一个新生成的文件'abc.csv'

图8 读取csv文件

4、用matplotlib绘制图表

数据的可视化是我们做数据分析的重要组成部分，用Jupyter + matplotlib也可以轻松的完成这一工作。我们在交互区输入第6章6.1.3中的代码，点击 'Run'按钮，一幅漂亮的折线图就产生了。

图9 matplotlib

总结：《Python数据分析基础》确实书如其名，非常的基础，可以把一个程序小白，手把手的带入数据分析的世界。

而我们利用Jupyter+Docker可以更加省去很多繁琐的安装／配置环节，更快的实现Python数据分析入门。