利用Python进行数据分析(原书第二版)

利用Python进行数据分析

注:本文许多内容来自互联网,如有侵权,请告知。


目录

利用Python进行数据分析

pandas   

NumPy   

Ipython

Jupyter

matplotlib

Statsmodels 

Scikit-learn   

数据分析

程序集

CLR


pandas   

pandas基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量的处理数据的函数和方法。Python数据分析模块。

NumPy   

NumPy(Numerical Python) 是 Python 语言的一个扩展程序库,支持大量的维度数组矩阵运算,此外也针对数组运算提供大量的数学函数库。NumPy 是一个运行速度非常快的数学库,主要用于数组计算。

Ipython

Ipython 是一个交互式计算系统。主要包含三个组件:增加的交互式 “Python shell”,解耦的双过程通信模型,交互式并行计算的架构。支持变量自动补全。

利用Python进行数据分析(原书第二版)_第1张图片

Jupyter

Jupyter   即Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。

matplotlib

matplotlib    是一个 Python 的 2D绘图库,它以各种硬拷贝格式和跨平台的交互式环境生成出版质量级别的图形。

Statsmodels 

Statsmodels   是一个Python模块,它提供对许多不同统计模型估计的类和函数,并且可以进行统计测试和统计数据的探索。允许用户浏览数据,估计统计模型和执行统计测试。可以为不同类型的数据和每个估算器提供广泛的描述性统计,统计测试,绘图函数和结果统计列表。

Scikit-learn   

 Scikit-learn 是目前Python编程者首选的机器学习工具包。实现分类、回归、聚类、降维、模型选择、预处理等。

数据分析

数据分析:数据的读写数据的处理计算数据的分析建模数据的可视化

利用Python进行数据分析(原书第二版)_第2张图片

程序集

程序集   经由编译器编译得到的,供CLR进一步编译执行的那个中间产物,在WINDOWS系统中,它一般表现为·dll或者是·exe的格式,但是要注意,它们跟普通意义上的WIN32可执行程序是完全不同的东西,程序集必须依靠CLR才能顺利执行。

CLR

CLR   是公共语言运行库(Common Language Runtime)和Java虚拟机一样也是一个运行时环境,它负责资源管理(内存分配和垃圾收集等),并保证应用和底层操作系统之间必要的分离。CLR的核心功能包括:内存管理、程序集加载、安全性、异常处理和线程同步,可由面向CLR的所有语言使用。并保证应用和底层操作系统之间必要的分离。.

Anaconda 

Anaconda指的是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。

pip

pip 是一个现代的,通用的 Python 包管理工具。提供了对 Python 包的查找、下载、安装、卸载的功能。

Jupyter notebook学习

Code cell   代码区块,是编写者编码区域,可在此区域编写代码,并输出运行结果。

Markdown cell   文本区块,支持Markdown写作,代码高亮,支持任意的HTML代码插入,支持LaTeX语法;可在此区域输入上述各类标记语言,并输出渲染后的富文本。

Raw NBConvert cell   此为原始区块,Jupyter Notebook不会对此区域内的输入做任何处理,输入内容即为输出内容。

Heading cell   对文档使用标题注释结构,目前Jupyter Notebook已不再使用,可直接在Markdown cell中使用“#”字符进行处理。

错误处理

  • Line magic function `%paste` not found

为什么有的魔法指令不能用???

Jupyter notebook使用笔记

  • 重命名文件夹:选中文件夹,在左上角有“rename”,即可重命名!
  • 在标记模式下,输入“#”可设置标题,一个“#”代表一级标题,同理两个“##”代表二级标题,注意:“#”后要加空格
  •  

python使用笔记

  • 查看python中已经安装的模块:  python  -m  pip list
  • 为python安装matplotlib模块:
    python -m pip install -U pip setuptools   //升级
    python -m pip install matplotlib          //安装

     

  • __iter__方法  如果一个类想被用于for ... in循环,类似list或tuple那样,就必须实现一个__iter__()方法,该方法返回一个迭代对象,然后,Python的for循环就会不断调用该迭代对象的next()方法拿到循环的下一个值,直到遇到StopIteration错误时退出循环。在python中实现了__iter__方法的对象是可迭代的。
  • range()方法    可创建一个整数列表,一般用在 for 循环中。
    range(start, stop[, step])

     

  •  format () 方法   字符串类型格式化方法。   <模板字符串>.format(<逗号分隔的参数>)     调用format()方法后会返回一个新的字符串,参数从0 开始编号。

    str_1 = '圆周率{0}是{1},是{2}'.format('pi', 3.1415926, '无理数')

     

  •  

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

     

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

你可能感兴趣的:(数据科学)