【Chapter 1】准备工作

【Chapter 1】准备工作

今天开始做《利用 Python 进行数据分析》的笔记,由于这本书用的是 2.7 版本的,把它用 3.0 版本实现对我来说也是一种挑战,我会加油的。

本书主要内容

  1. 本书讲的是利用 Python 进行数据控制、处理、整理、分析等方面的具体细节和基本要点。

  2. 本书重点介绍了由于高效解决各种数据分析问题的 Python 语言和库,本书没有阐述如何利用 Python 实现具体的分析方法。

  3. 我们说的数据指的是结构化的数据(structured data),比如:

    • 表格型数据,每一列有不同的类型(字符串,数字,日期等)。这种情况是我们最常见到的,常见于用tab-或逗号分隔的文件(比如CSV文件)
    • 多维数组(Multidimensional arrays,比如矩阵)
    • 用一列作为键(比如SQL中的主键和外键),整合多个表格的数据
    • 时间序列数据

    大部分数据都可以被转化为结构化数据,方便进行分析和建模。如果无法转化,那么我们可以从数据集中抽取特征,做成一个结构化的形式。举个例子,新闻可以被处理为单词频率表格,然后我们可以对其进行情感分析(sentiment analysis)。

重要的 Python 库

  • Numpy

    Python 科学计算的基础包,除了为 Python 提供快速的数组处理能力,NumPy 还作为在算法之间传递数据的容器。

    使用 Python 进行科学计算:NumPy入门
    NumPy.dot() 理解(提示:请注意坐标)

  • pandas

    本书的主角,用于进行数据处理和清洗的利器。

  • matplotlib

    用于绘图和数据可视化的 Python 库。

  • IPython

    增强型的 Python shell,主要用于交互式数据处理和利用 matplotlib 对数据进行可视化处理。

  • SciPy

    SciPy模块介绍

安装和设置

Windows下 Anaconda 的安装和简单使用

安装完 anaconda,就相当于安装了 Python、IPython、集成开发环境Spyder 等等包。

  1. Anaconda使用总结
  2. Windows下Anaconda的安装和简单使用(建议将第一个选项框(Add Anaconda to my PATH environment variable)选上。然后点击Install )
  3. 初学Python者自学anaconda的正确姿势是什么

Installing or Updating Python Packages(下载和更新Python库)

可以使用conda和pip两种工具进行库的下载和更新:

conda install package_name

但有时候一些库不在 Anaconda 的服务器上,上面的命令会失败。这个时候我们可以使用 pip(pip 是一个python的包管理工具):

pip install package_name

conda更新:

conda update package_name

pip更新:

pip install --upgrade package_name

这两个下载方式都可以用,不会冲突的。不过不要使用 pip 来更新用conda 下载的包,这会导致库之间的依赖出现问题。所以在使用Anaconda的时候,最好先尝试使用 conda 来更新,不行的话再使用 pip。

你可能感兴趣的:(【Chapter 1】准备工作)