mooc网python数据分析与展示

mooc网python数据分析与展示

1.conda,spyder,ipython
2.对于创建后的ndarray数组,可以对其进行维度变换和元素类型变换。
a=np.ones((2,3,4),dtype=np.int32)
3.reshape(shape)不改变数组元素,返回一个shape形状的数组,原数组不变
.resize(shape)与reshape功能一致,但修改原数组
.swapaxes(ax1,ax2)对数组n个维度中两个维度进行调换
.flatten(),降维,不改变原数组.
4.new_a=a.astype(new_type)
astype会创建新数组
5.ls=a.tolist()数组向列表的转换。
6.np.rint(x)计算数组各元素的四舍五入值
np.modf(x)将数组各元素的小数和整数部分分别返回
np.sign(x)计算数组各元素的符号值
np.tanh(x)双曲型三角函数。
np.copysigh(x,y)将数组y中各个元素值的符号赋值给数组x对应元素。
np.savetxt(frame,array,fmt='%.18e',delimiter=None)
np.loadtxt(frame,dtype=np.float,delimiter=None,unpack=False)
csv只能存取一维和二维数组。
7.a.tofile(frame,sep='',format='%s')
frame:文件,字符串.

sep:数据分割字符串,空串写入文件为二进制
format:写入数据的格式
np.fromfile(frame,dtype=float,count=-1,sep='')
count-1是读入整个文件
8.np.save(fname,array) 扩展名为.NPY
np.savez(fname,array) 扩展名为.npz
np.load(fname)
与其他程序进行交流的话不适合用这种方式
9.numpy库的随机函数
np.random.randint(100,200,(3,4))
shuffle(a)根据数组a的第1轴进行随机排列,改变数组x
permutation(a)不改变数组x
choice(a[,size,replace,p])从一维数组a中以概率p抽取元素,形成size形状新数组replace表示是否可以重用元素,默认为false
np.random.choice(b,(3,2),replace=False)
np.random.choice(b,(3,2),p=b/np.sum(b))
10.uniform(low,high,size)均匀分布,起始结束
normal(loc,scale,size)正态分布,均值,标准差
poisson(lam,size)泊松分布 随机率
11.sum(a,axis=None)
mean(a,axis=None)
average(a,axis=None,weight=None)期望 权重
std(a,axis=None)标准差
var(a,axis=None)方差
12.min(a),max(a),argmin(a),argmax(a),unravel_index(index,shape)根据shape将一维下标index转换成多维下标,ptp(a)计算数组a中元素最大值与最小值的差,median(a)计算数组a元素的中位数。
13.np.gradient(f)计算数组f中元素的梯度,当f为多维时,返回每个维度梯度。
14.一二维数据可以用csv文件,np.loadtxt(),np.savetxt()
多维数据存取,a.tofile(),np.fromfilr(),np.save(),np.savez(),np.load().
15.np.random.rand(),np.random.randn(),np.random.randint(),np.random.seed(),np.random.shuffle(),np.random.permutation(),np.random.choice()
Matplotlib库入门
1.pyplot绘图区域
plt.subplot(nrows,ncols,plot_number).
2.plt.plot(x,y,format_string,kwargs)
format_string:控制曲线的格式字符串,多选
kwargs:可以下一条曲线
3.format_string 颜色,标记,风格
c 青绿色 m 洋红色
'.'点标记,','像素标记极小点,'o'实心圈,'v'倒三角,'^','>'右三角,'<','1'下花三角,'2'上花三角,'3'左花,'4'右花,'s'实心方形,'p'实心五角,'
','h'竖六边形,'H'横六边形,'+'十字标记,'x'x标记,'D'菱形标记,'d'瘦菱形,'|'垂直线。
'-','--','-.',':',''
plt.plot(a,a
1.5,'go-')
4.plt.plot(x,y,format_string,
kwargs)
format_string:color linestyle,marker,markerfacecolor,markersize
5.pyplot的中文显示

import matplotlib.pyplot as plt
import matplotlib

matplotlib.rcParams['font.family']='SimHei'
plt.plot([3,1,4,5,2])
plt.ylabel("纵轴(值)")
plt.savefig('test',dpi=600)
plt.show()

6.font.family,font.style,font.size。
7.rcParams['font.family']
SimHei 中文黑体,Kaiti中文楷体,LiSu中文隶书,FangSong仿宋,YouYuan,STSong华文宋体
8.pyplot的中文显示:第二种方法,在有中文输出的地方,增加一个属性:fontproperties。
9.pyplot的文本显示:plt.xlable(),plt.ylable(),plt.title()整体增加文本标签plt.text()对任意位置增加文本,plt.annotate()在图形中增加带箭头的注解.

import numpy as np
import matplotlib.pyplot as plt

a=np.arange(0.0,5.0,0.02)
plt.plot(a,np.cos(2*np.pi*a),'r--')

plt.xlabel('横轴:时间',fontproperties='SimHei',fontsize=15,color='green')
plt.ylabel('纵轴:振幅',fontproperties='SimHei',fontsize=15)
plt.title(r'正弦波实例$y=cos(2\pi x)$',fontproperties='SimHei',fontsize=25)
plt.text(2,1,r'$\mu=100$',fontsize=15)

plt.axis([-1,6,-2, 2])
plt.grid(True)
plt.show()

10.plt.annotate(s,xy=arrow_crd,xytext=text_crd,arrowprops=dict)
增加注释,xy对应箭头所在位置,xytext文本显示的位置,arrowprops字典类型对应箭头属性、

plt.annotate(r'$\mu-100$',xy=(2,1),xytext=(3,1.5),arrowprops=dict(facecolor='black',shrink=0.1,width=2))

11.plt子绘制区域的设置
plt.subplot2grid()
plt.subplot2grid(GridSpec,CurSpec,colspan=1,rowspan=1)理念:设定网络,选中网络,确定选中行列区域数量,编号从0开始。设定几行几列,从几行几列开始,在列/行的方向上延伸
plt.subplot2grid((3,3),(1,0),colspan=2)。由上到下012由左到右012。
或者用GridSpec类

import matplotlib.gridspec as gridspec
gs=gridspec.GridSpec(3,3)
ax1=plt.subplot(gs[0,:])
ax2=plt.subplot(gs[1,:-1])
ax3=plt.subplot(gs[1:,-1])
ax4=plt.subplot(gs[2,0])

matplotlib基础绘图函数示例
1.plt.plot(x,y,fmt) 坐标图
plt.boxplot(data,notch,position)箱型图
plt.bar(left,height,width,bottom)条形图
plt.barh(width,bottom,left,height)横向条形
plt.polar(theta,r)极坐标图
plt.pie(data,explode)饼图
plt.psd(x,NFFT=256,pad_to,Fs)绘制功率谱密度图
plt.specgram(x,NFFT=256,pad_to,F)谱图
plt.cohere(x,y,NFFT=256,Fs)x-y相关性
plt.scatter(x,y)散点
plt.step(x,y,where)步阶图
plt.hist(x,bins,normed)直方图
plt.contour(X,Y,Z,N)绘制等值图
plt.vlines()绘制垂直图
plt.stem(x,y,linefmt,markerfmt)绘制柴火图
plt.plot_date()绘制数据日期

饼图

import matplotlib.pyplot as plt

labels='Frogs','Hogs','Dogs','Logs'
sizes=[15,30,45,10]
explode=(0,0.1,0,0)

plt.pie(sizes,explode=explode,labels=labels,autopct='%1.1f%%',shadow=False,startangle=90
        )
plt.axis('equal')
plt.show()

直方图

import numpy as np
import matplotlib.pyplot as plt

np.random.seed(0)
mu,sigma=100,20  #均值和标准差
a=np.random.normal(mu,sigma,size=100)

plt.hist(a,20,normed=1,histtype='stepfilled',facecolor='b',alpha=0.75)
plt.title('Histogram')
plt.show()

normed=0是个数,normed=1是概率

极坐标

import numpy as np
import matplotlib.pyplot as plt

N=20
theta=np.linspace(0.0,2*np.pi,N,endpoint=False)
radii=10*np.random.rand(N)
width=np.pi/4*np.random.rand(N)

ax=plt.subplot(111,projection='polar')
bars=ax.bar(theta,radii,width=width,bottom=0.0)

for r,bar in zip(radii,bars):
    bar.set_facecolor(plt.cm.viridis(r/10.))
    bar.set_alpha(0.5)

plt.show()

散点图

import numpy as np
import matplotlib.pyplot as plt

fig,ax=plt.subplots()
ax.plot(10*np.random.randn(100),10*np.random.randn(100),'o')
ax.set_title('Simple Scatter')

plt.show()

引力波

import numpy as np
import matplotlib.pyplot as plt
from scipy.io import wavfile
 
rate_h, hstrain= wavfile.read(r"H1_Strain.wav","rb")
rate_l, lstrain= wavfile.read(r"L1_Strain.wav","rb")
#reftime, ref_H1 = np.genfromtxt('GW150914_4_NR_waveform_template.txt').transpose()
reftime, ref_H1 = np.genfromtxt('wf_template.txt').transpose() #使用python123.io下载文件
 
htime_interval = 1/rate_h
ltime_interval = 1/rate_l
fig = plt.figure(figsize=(12, 6))
 
# 丢失信号起始点
htime_len = hstrain.shape[0]/rate_h
htime = np.arange(-htime_len/2, htime_len/2 , htime_interval)
plth = fig.add_subplot(221)
plth.plot(htime, hstrain, 'y')
plth.set_xlabel('Time (seconds)')
plth.set_ylabel('H1 Strain')
plth.set_title('H1 Strain')
 
ltime_len = lstrain.shape[0]/rate_l
ltime = np.arange(-ltime_len/2, ltime_len/2 , ltime_interval)
pltl = fig.add_subplot(222)
pltl.plot(ltime, lstrain, 'g')
pltl.set_xlabel('Time (seconds)')
pltl.set_ylabel('L1 Strain')
pltl.set_title('L1 Strain')
 
pltref = fig.add_subplot(212)
pltref.plot(reftime, ref_H1)
pltref.set_xlabel('Time (seconds)')
pltref.set_ylabel('Template Strain')
pltref.set_title('Template')
fig.tight_layout()
 
plt.savefig("Gravitational_Waves_Original.png")
plt.show()
plt.close(fig)

pandas库入门

1.Series,DataFrame一维和二维
2.基本操作,运算操作,特征类操作,关联类操作。
3.numpy是基础数据类型,关注数据的结构表达,维度是数据间的关系。
pandas是扩展数据类型,关注数据的应用表达,维度是数据与索引间的关系。
4.pandas库中的series类型
series由数据及与之对应的相关数据索引组成
5.series由python列表,标量值,python字典,ndarray,其他函数创建。
import pandas as pd
标量:
s=pd.Series(25,index=['a','b','c'])
字典:
d=pd.Series({'a':9,'b':8})
想要键和值不一一对应:
e=pd.Series({'a':9,'b':8,'c':7}),index=['c','a','b','d'])
ndarray:
n=pd.Series(np.arange(5))
m=pd.Series(np.arange())
6.series操作
b.index获得索引,b.values 获得数据
series自动索引和自定义索引并存,但不能混用。
7.b[3]获得是值
b[:3]获得是索引加值。
8.只有当选择series中一个的时候,是一个值,其他的都是series类型
9.in只会判断自定义索引
10.b.get('f',100)如果存在f,返回f,不存在,返回100.
11.a+b索引相同的值相加。
12.b.name,b.index.name。
13.pandas库的dataframe类型
dataframe由共同相同索引的一组列组成

你可能感兴趣的:(mooc网python数据分析与展示)