pandas库

目录

  • 一. numpy库
  • 二. pandas库
    • 读取文件并查看信息
    • 基础统计方法
    • 函数reset_index()
  • 三. matplotlib
  • 四. SciPy
  • 五. scikit-learn
  • 六. statsmodels

一. numpy库

NumPy(http://numpy.org)是Numerical Python的简写,是Python数值计算的基石。它提供多种数据结构、算法以及大部分涉及Python数值计算所需的接口。

二. pandas库

pandas(http://pandas.pyda ta.org)提供了高级数据结构和函数,这些数据结构和函数的设计使得利用结构化、表格化数据的工作快速、简单、有表现力。Pandas 这个名字来源于面板数据(Panel Data)与数据分析(data analysis)这两个名词的组合。

读取文件并查看信息

#pandas读取文件
import pandas as pd
df=pd.read_csv('11.csv')
df=pd.read_excel('11.xslx',sheet_name='year') #读excel文件的year表
p = pd.read_excel(.xlsx', header=1) #设置header参数来指定目标行的数据为列标签(跳过标题),从0开始计数
df.head(20) #显示前20行
df.info() #检查变量信息和缺失值信息
pd.value_counts(df['name']) #计算name列的频率
#pandas读取某一单元格,直接可以
df.values[2,2]

基础统计方法

#pandas按列、行求和
df['行求和'] = df.iloc[:,3:6].sum(axis=1)
df['列求和'] = df.iloc[:,3:6].sum(axis=0)
#pandas获取指定单元格的值,row7,column5
data_1 = df.iloc[6,4]
#describe()函数可以查看数据的基本情况,包括:count非空值数、mean平均值、std标准差、max最大值、min最小值、(25%、50%、75%分位数等。
info=data.describe()

#nunique()和unique():Pandas中Series和DataFrame的两种数据类型中都有nunique()和unique()方法。
#unique()方法返回的是去重之后的不同值,而nunique()方法则直接放回不同值的个数。

data2 = pd.Series([34,212,23,None,11,33,pd.NaT,11,22,34,33,22,34, np.NAN, np.NaN])
print('data2中不同值:', data2.unique())
print('data2中不同值的个数:', len(data2.unique()))
print('data2中不同值的个数:', data2.nunique())
print('data2中不同值的个数(包含空值):', data2.nunique(dropna=False))

函数reset_index()

在这里插入代码片

DataFrame(Pandas库)
Pandas 的数据结构主要是:Series(一维数组),DataFrame(二维数组)。DataFrame是由索引和内容组成

Pandas读取某列、某行数据——loc、iloc用法总结
link

三. matplotlib

python的2D绘图库。matplotlib(http://matplotlib.org)是最流行的用于制图及其他二维数据可视化的Python库。

import matplotlib.pyplot as plt
#更改饼图大小,在plt.show()上方插入两行
fig = plt.gcf()
fig.set_size_inches(10,10)
#对excel操作
https://blog.csdn.net/weixin_43673522/article/details/116403282
#seaborn的pairplot

pyplot设置刻度字体大小以及标签字体大小
import … as …
from…import…

PIL库
Image,

numpy库

matplotlib.pyplot库

sklearn.datasets库

from matplotlib.pyplot import figure
from mpl_toolkits.axes_grid1 import make_axes_locatable

四. SciPy

SciPy(http://scipy.org)是科学计算领域针对不同标准问题域的包集合。

五. scikit-learn

scikit-learn项目(http://scikit-learn.org)诞生于2010年,目前已成为Python编程者首选的机器学习工具包。其中包含以下子模块。

  • 分类:SVM、最近邻、随机森林、逻辑回归等

  • 回归:Lasso、岭回归等

  • 聚类:k-means、谱聚类等

  • 降维:PCA、特征选择、矩阵分解等

  • 模型选择:网格搜索、交叉验证、指标矩阵

  • 预处理:特征提取、正态化

六. statsmodels

与scikit-learn相比,statsmodels包含经典的(高频词汇)统计学、经济学算法。它所包含的模型如下。

  • 回归模型:线性回归、通用线性模型、鲁棒线性模型、线性混合效应模型等
  • 方差分析(ANOVA)· 时间序列分析:AR、ARMA、ARIMA、VAR等模型
  • 非参数方法:核密度估计、核回归
  • 统计模型结果可视化

statsmodels更专注于统计推理,提供不确定性评价和p值参数。相反,scikit-learn更专注于预测。

你可能感兴趣的:(机器学习,pandas)