利用Python进行数据分析-环境搭建

主要内容:
python开发环境搭建篇:(EPD+Pandas,IPython Notebook,Notepad++)

一、配置EPD+Pandas

软件名称 下载地址

  • epd_free-7.3-2-win-x86.msi http://epdfree-7-3-2.software.informer.com/7.3/
  • get-pip.py https://bootstrap.pypa.io/get-pip.py
  • pandas-0.17.0-cp27-none-win32.whl https://pypi.python.org/pypi/pandas/0.17.0/

注解:

  • EPD(Enthought Python Distribution,简称EPD),目前已经更名为Enthought Canopy。包含NumPy,SciPy,Matplotlib,Ipython等科学计算基础包;
  • pip,是管理和安装python包的工具,由于需要安装.whl文件,故需要先安装pip;
  • pandas,一个基于NumPy的数据分析包,纳入了大量库和一些标准的数据模型,它是使Python成为强大而高效的数据分析环境的重要因素之一。

第1步:安装EDP

  • 双击epd_free-7.3-2-win-x86.msi 进行安装,选择好安装目录后,各种点击下一步即可。
  • 查看系统环境变量path中是否有(Python安装目录/; Python安装目录/scripts/),安装时默认自动添加,若无自己添加
  • 打开cmd,输入python,出现版本信息即为成功。

第2步:安装PIP

  • 在cmd中,进入到get-pip.py所在目录,输入:get-pip.py,执行即可。

第3步:安装pandas

  • 在cmd中,进入到pandas-0.17.0-cp27-none-win32.whl所在目录,如下命令:

        pip install pandas-0.17.0-cp27-none-win32.whl
    

第4步:测试

  • 在cmd中输入如下命令:
    ipython --pylab
    import pandas
    plot(arange(10))

  • 若画图成功,则pandsa安装成功。

二、配置Notepad++终端开发环境

第1步:安装Notepad++

1. 下载notepad++并安装。

第2步:配置环境

1. 语言格式:

  • 设置.py格式
    打开Notepad编辑器,语言》P》Python即可,文档会默认保存为.py格式。
  • Tab长度和空格转换
    因为 Python 对缩进要求严格,这里将 Tab 设置成4个空格, 在”设置->首选项->编辑->制表符设 -置” 中修改。在视图 -> 显示符号 -> 显示空格与制表符,可以查看对齐情况。
  • 语法高亮
    只要正确设置扩展名,Notepad++就可识别并高亮语法。在 “设置->语言格式设置”中可以进行修改。

2. 调试运行:

  • 方式一:快捷键

    • 打开Notepad++ 按下F5,或者打开运行》运行…
      cmd /k python "$(FULL_CURRENT_PATH)" & ECHO. & PAUSE & EXIT
    • 单击保存,然后命名为RunPython,快捷键设置为ctrl+f5.
    • #注释
      cmd /k python: 表示打开Cmd窗口,运行/k后边的命令,并且执行完毕后保留窗口。
      $(FULL_CURRENT_PATH) :Notepad++的宏定义,表示当前文件的完整路径。
      & : 用来连接多条命令
      ECHO: 换行
      PAUSE:表示运行结束后暂停(cmd中显示“请按任意键继续. . .”),等待一个按键继续
      EXIT: 表示“按任意键继续. . .”后,关闭命令行窗口。
  • 方式二:插件法

    • 打开Notepad++,点击菜单栏的插件》plugin manager》 show plugin manager, 在available中找到PyNPP 选中并安装后重启。
    • 若无可用插件,可登陆官方网站:http://sourceforge.net/projects/npp-plugins/,点击files》PyNpp并下载,将插件包解压到notepad++\Plugins目录下即可。
    • 运行:插件》PyNPP》run file in python interactive,即可运行python程序。

第3步:测试

1. 创建一个测试文件,保存为DemoRun.py。

  import platform;  
  print "Just for demo how to do python development under windows:";
  print "Current python version info is %s"%(platform.python_version());
  print "uname=",platform.uname();
  #Ctrl + F5/插件法去执行,看是否能输出结果。一定要保证代码对齐,否则会报错IndentationError: unexpected indent。

三、配置IPython Notebook网页端开发环境

介绍

  • IPython Notebook使用浏览器作为界面,向后台的IPython服务器发送请求,并显示结果。在浏览器的界面中使用单元(Cell)保存各种信息。Cell有多种类型,经常使用的有表示格式化文本的Markdown单元,和表示代码的Code单元。
  • 每个代码单元都有一个输出区域,在Code单元中输入代码,按 Shift-Enter 将运行此代码,代码中最后一个表达式的值将输出区域显示。如果希望屏蔽输出,可以在最后一条语句之后添加一个分号:”;”。此外,代码中还可以使用print语句在输出区域中显示信息。
  • 在Markdown单元中还可以直接使用Html和Javascript。

第1步:安装

  • EPD中已经包含了IPython Notebook的依赖包:tornado,pyzmq。因此,只需知道如何使用即可。
  • 使用方法:
  • 打开cmd,输入:IPython Notebook。
  • 它会自动读取该目录下面的.ipynb文件,会跳转至系统默认浏览器的IPython Dashboard界面。
  • 点按钮New notebook即可新建文件。

第2步:使用技巧

  • 可以选择MarkDown,用MarkDown来写说明
  • 如果在函数、模块、类后面输入‘?’,按住Ctrl-Entry的话就回跳出帮助文档。如果是两个‘??’的话连,源代码都会给出来的。
  • 在网页中输入%matplotlib inline将matplotlib库导入,要显示的图片就可以嵌入到网页中了
  • 使用ipython nbconvert [.ipynb文件]命令来生成默认格式(html格式)
  • 还可以使用–to选项来转换为指定的格式,如:
    ipython nbconvert --to latex mynotebook.ipynb
    ipython nbconvert mynotebook.ipynb --to pdf
    ipython nbconvert --to html --template basic mynotebook.ipynb
    ipython nbconvert mynotebook.ipynb --to markdown
  • %load可以从文件或者网址载入代码到一个新的单元中,例如下面载入某个matplotlib的示例程序,并执行
    %load http://matplotlib.org/mpl_examples/pylab_examples/histogram_demo.py
  • IPython中Magic命令有两种执行方式,以%开始的命令被称为行命令,它只对单行有效,以%%开头的为单元命令,它放在单元的第一行,对整个单元有效。
  • %prun用于代码的执行性能分析,可以作为行命令和单元命令使用。

你可能感兴趣的:(数据挖掘)