用python学概率与统计(第三章)描述性统计:数值方法

3.2

################## ********************************

count 非 NA 值的数量
describe 针对 Series 或 DF 的列计算汇总统计
min , max 最小值和最大值
argmin , argmax 最小值和最大值的索引位置(整数)
idxmin , idxmax 最小值和最大值的索引值
quantile 样本分位数(0 到 1)
sum 求和
mean 均值
median 中位数
mad 根据均值计算平均绝对离差
var 方差
std 标准差
skew 样本值的偏度(三阶矩)
kurt 样本值的峰度(四阶矩)
cumsum 样本值的累计和
cummin , cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化

3.3 相对位置的度量和异常值的检测

z分数

z=(xix¯)s
切比雪夫定理:与均值距离在z个标准差之内的数据比例至少为(1-1/ z2 ),这里的z是大于1的任何值
z大于3或小于-3的我们视为异常值


df3 = pd.read_csv("E:\\data\\NCAA.csv")

In [167]:

df3.dropna(axis =1,how='all',inplace = True) #空数据清洗

In [169]:

df3.dropna(how='all',inplace = True)
In [170]:

df3
Out[170]:
Winning Team    Points  Losing Team Points.1    Winning Margin
0   Arizona 90.0    Oregon  66.0    24.0
1   Duke    85.0    Georgetown  66.0    19.0
2   Florida State   75.0    Wake Forrest    70.0    5.0
3   Kansas  78.0    Colorado    57.0    21.0
4   Kentucky    71.0    Notre Dame  63.0    8.0
5   Louisville  65.0    Tennessee   62.0    3.0
6   Oklahoma State  72.0    Texas   66.0    6.0
7   Purdue  76.0    Michigan State  70.0    6.0
8   Stanford    77.0    Southern Cal    67.0    10.0
9   Wisconsin   76.0    Illinois    56.0    20.0
In [174]:

mean_w
mean_w = df3['Points'].mean()
In [175]:

std_w
std_w = df3['Points'].std()
In [197]:

list1 = []
for x in df3.index:
    list1.append((df3.iloc[x,1] - mean_w)/ std_w)
​
In [199]:

df3['w_z'] = list1 #增加获胜队的z分数一列
In [200]:

df3
df3
Out[200]:
Winning Team    Points  Losing Team Points.1    Winning Margin  w_z
0   Arizona 90.0    Oregon  66.0    24.0    1.925300
1   Duke    85.0    Georgetown  66.0    19.0    1.212226
2   Florida State   75.0    Wake Forrest    70.0    5.0 -0.213922
3   Kansas  78.0    Colorado    57.0    21.0    0.213922
4   Kentucky    71.0    Notre Dame  63.0    8.0 -0.784381
5   Louisville  65.0    Tennessee   62.0    3.0 -1.640070
6   Oklahoma State  72.0    Texas   66.0    6.0 -0.641767
7   Purdue  76.0    Michigan State  70.0    6.0 -0.071307
8   Stanford    77.0    Southern Cal    67.0    10.0    0.071307
9   Wisconsin   76.0    Illinois    56.0    20.0    -0.071307

箱型图

plt.boxplot(df4[0],whis = 1.5,meanline = True,showmeans = True)

3.5两变量间关系的度量

协方差是两变量间线性关系的度量
样本协方差: sxy=(xix¯)(yiy¯)n1
df.cov()
相关系数:Pearson相关系数 rxy=sxysxsy
sxy :协方差 sx : x的样本标准差 sy : y的样本标准差
相关系数位于-1到1之间,越接近-1或1表示越强的线性关系。

3.6加权平均值和使用分组数据

加权平均值: x¯=wixiwi

In [16]: a=(70,80,60)

In [17]: np.mean(a) #平均值
Out[17]: 70.0

In [18]: np.average(a,weights=[3,3,4]) #加权平均值
Out[18]: 69.0

总结

包 方法 说明
numpy array 创造一组数
numpy.random normal 创造一组服从正态分布的定量数
numpy.random randint 创造一组服从均匀分布的定性数
numpy mean 计算均值
numpy median 计算中位数
scipy.stats mode 计算众数
numpy ptp 计算极差
numpy var 计算方差
numpy std 计算标准差
numpy cov 计算协方差
numpy corrcoef 计算相关系数

你可能感兴趣的:(python数据分析)