利用python进行数据分析 笔记_利用python进行数据分析(O'Relly)学习笔记-一团网...

利用python进行数据分析(O’Relly)学习笔记

1.第一个bug

import pandas

plot(arrange(10))

#报错name 'plot' is not defined。

#加注%pylab解决

2.SPYDER快捷键

Ctrl + 1: 注释/反注释

Ctrl + 4/5: 块注释/块反注释

Ctrl + L: 跳转到行号

Tab/Shift + Tab: 代码缩进/反缩进

Ctrl +I:显示帮助

此外,#%%用于创建cell,便于程序测试

3.pandas入门知识

《10 Minutes to pandas》 Pandas的 loc iloc ix 区别 Pandas透视表(pivot_table)详解 利用python做数据分析(六)-reindex

4.bit.ly的1.usa.gov数据

清除变量 reset [y] 字典排序

sorted(counts.items(),key=lambda item:item[1],reverse=True)

argsort函数返回的是数组值从小到大的索引值

5.movielens的数据

'Series' object has no attribute 'order'

#python3.6下,Series的排序用.sort_values命令

6.numpy入门知识

numpy之转置(transpose)和轴对换

7. 第八章图形化显示海地地震危机数据

安装basemap包用的是conda install,安装了两次,第一次网络中断,第二次重新装就装好了。但是 import mpl_toolkits.basemap 报错找不到basemap包。检查了一下python27/mpl_toolkits文件夹下确实没有basemap文件夹,于是去anaconda2/pkgs/basemap/lib/mpl_toolkits文件夹下把basemap文件夹移动过去就不再报错了。

接下来在计算投影坐标时候出现runtime error,查了一下是pandas改了序列数据传递值的方式,把

m(cat_data.LONGITUDE,cat_data.LATITUDE) 改成

m(cat_data.LONGITUDE.values, cat_data.LATITUDE.values)就可以了。

具体的pandas说明文档如下:

+.. warning::

+ In 0.13.0 since ``Series`` has internaly been refactored to no longer sub-class ``ndarray``

+ but instead subclass ``NDFrame``, you can **not pass** a ``Series`` directly as a ``ndarray`` typed parameter

+ to a cython function. Instead pass the actual ``ndarray`` using the ``.values`` attribute of the Series.

+ Prior to 0.13.0

+ .. code-block:: python

+ apply_integrate_f(df['a'], df['b'], df['N'])

+ Use ``.values`` to get the underlying ``ndarray``

+ .. code-block:: python

+ apply_integrate_f(df['a'].values, df['b'].values, df['N'].values)

你可能感兴趣的:(利用python进行数据分析,笔记)