提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
提示:这里可以添加本文要记录的大概内容:
数据统计有三种方式:1、汇总类统计。2、唯一去重和按值计数。3、相关系数和协方差
提示:以下是本篇文章正文内容,下面案例可供参考
https://www.bilibili.com/video/BV1UJ411A7Fs?p=6
代码如下(示例):
import pandas as pd
import numpy as np
df=pd.read_excel(r"C:\Users\lenovo\Desktop\b.xls")
df.loc[:,"bwendu"]=df["bwendu"].str.replace("℃","").astype('int32')
df.loc[:,"ywendu"]=df["ywendu"].str.replace("℃","").astype('int32')
对连续值来说:
count:每一列非空值的数量
mean: 每一列的平均值
std:每一列的标准差
min:最小值
25%:25%分位数,排序之后排在25%位置的数
50%:50%分位数
75%:75%分位数
max:最大值
对离散值来说特有的:
unique:不重复的离散值数目,去重之后的个数
top: 出现次数最多的离散值
freq: 上述的top出现的次数
————————————————
版权声明:本文为CSDN博主「_qz」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/m0_45210226/article/details/108942526:
#提取dataframe中所有数据列的汇总统计信息
df.describe()
df["bwendu"].mean()#查看bwendu的平均值
df["bwendu"].max()#查看bwendu的最大值
df["bwendu"].min()#查看bwendu的最小值
2.1唯一性去重df.unique()
一般不用于数值列,用于枚举、分类列
2.2按值计数
df["姓名"].value_counts()
用途:比如:两只股票是同涨同跌?程度多大?正相关还是负相关?
产品销量的波动,跟哪些因素正相关、负相关、程度有多大?
对于两个变量x、y:
1、协方差:衡量同向反向程度,如果协方差为正,说明x、y同向变化,协方差越大说明同向程度越高。如果协方差为负数,说明x、y反向运动,协方差越小说明反向程度越大
2、相关系数:衡量相似程度。当相关系数为1时,说明两个变量变化时的正向相似程度最大;当相关系数为-1时,说明两个变量变化的反向相似程度最大
df.cov()#协方差矩阵
df.corr()#相关系数矩阵
#单独查看空气质量和最高温度的相关系数
df["aqi"].corr(df["bwendu"])
#!!这就是特征工程对于机器学习重要性的一个例子
提示:这里对文章进行总结:
协方差和相关系数的数学基础不是很清楚