jupyter函数的自我总结

jupyter ipython 版本改变了换了个名字

jupyter开启方法:在 终端中 输入jupyter notebook
条件:只支持谷歌内核的浏览器,在任何系统当中都不能关闭终端

jupyter 可以创建python3文件,尾缀名.ipynb  

终端在windows系统下无法使用

%who查看变量 函数名 类名 包名
%run 运行外部文件的,支持.ipynb .py

numpy

ndarray的创建:

强制转换:np.array()  支持 list tuple


创建ndarray  np.adarray() 元素是随即的


np.random库:
randint() 生成一个全为整数的多维数组,size代表数组的形状
random()  生成一个0-1之间的数组,size代表形状
rand()   生成一个0-1之间的数组,每填写一个参数,就增加一个维度
randn()   标准的正太分布, 生成0附近的数组
normal()  正太分布的函数,loc 定义标准值是多少,scale定义波动(偏差)

linspace()  以增长幅度生成数据的
logspace()  将增长的幅度求对数
arange()   和range没有不同
ones()    生成一个样本全为1的数组
zeros()   生成一个全为0的数组
full()    生成一个全为指定数值的数组
eye()    生成一个单位矩阵的
diag()   生成一个对角矩阵

数组的属性

shape  查看数组的形状
ndim  查看数组的维度
size  查看样本的数量
dtype 查看数据类型

T     数组的转置
imag   提取虚数部分
real   提取实数部分

Day2

索引  numpy的索引是多维索引,对于图片的索引顺序  先y后x

reshape() 重设形状,不能改变元素的总量, reshape(-1)的作用就是将数组转变为1为的

ravel()  将数组展开成一维的

concatenate() 级联,作用:将多个数组拼接成一个数字,axis是数组连接的轴,0代表最外层,-1代表最内层

spli()  将数组分为几个等份

mean()  求平均值,可以用来做图片的灰度化

nansum()  将带有nan的数据视为0在就和

argmin()  查找最小值的下标

argmax()  查找最大值的下标

argwhere()  查找符合条件元素的下标

swapaxes()  轴的交换,一般使用做转置的

repeat()  数组元素的循环,可以用axis调节是列重复还是行重复

add()  数组就和,两个数组的形状必须一致,相对应的位置相加

np.multiply() 普通的乘法,对应位置相乘

np.dot()  矩阵乘法,行*列

sort()  排序

Day3

pandas 中有两个重要的数据库类型,Series,DataFrame


Series 是一维的数组,类似于字典,可以同时使用枚举型索引和关联型索引
      index指定关联索引的   name指定列名
      
DataFrame  是一个二维的数组类型,类似于数据表,是由多个Series组成的
        index代表的是行索引,columns代表的是列索引
        
loc[]  显示索引,闭区间,只可以使用关联索引
iloc[]  隐式索引,半闭区间,只能使用枚举索引

dataframe使用[],只能取列索引

.index 获取所有的行索引
.columns 获取所有的列索引
.valuex  获取所有的元素,返回ndarray
.dtypes  获取数据类型

isnull()  判断有没有空值(NaN),如果有则返回True
notnull() 判断有没有空值(NaN),如果有返回False
dropna()  删除含有空值的行或列
fillna()  填充行或者列的空值

Day4

stack()  将列索引转变成行索引
unstack() 将行索引转变为列索引
std()    求标准差
concat()  pandas中的级联,可以将多个DataFrame合并成一个新的数据集,默认使用outer join
merge()   合并DataFrame,一次只能合并两张表,默认使用inner join,如果两张表的字段不同,可以是用left_on|right_on
        如果,关联字段是行号,可以使用left_index|right_index,如果字段同名且不同意,可以使用suffix添加后缀名
drop()  删除行或列
set_index() 将摸个字段作为行号 
query()  执行条件查询

Day5

duplicated()      查找重复的值,返回bool值
drop_duplicates()   删除重复的值

map()     映射
replace()   将指定的值替换为其他值,使用dict作为映射对照表
rename()    将行号替换为其他的行号,使用dict作为映射对照表
describe()  检查异常值的统计表
sort_index()  对行号进行排序
sort_values() 对某一列的值进行排序
unique()    提取重复值
groupby()    分组
add_prefix() 给行或者列添加前缀

pandas中的绘图函数

df.plot() kind =['line','bar','barh','kde','hist','scatter']
line 线性图
bar|barh 柱状图,二维的图形
kde  密度图,一维图形
hist 直方图,一维图形
scatter 散点图,支持二维和三维,DataFrame中的一列对于scatter就是一个维度

你可能感兴趣的:(数据分析)