想发光的小迪迦

数据汇总与统计(pandas库)知识点归纳总结及练习题

统计的基本概念

总体：研究对象的全体–eg：所有学生的身高、成绩和体重等

个体：总体中的每一个成员–eg：单个同学的身高、成绩

样本：从总体中抽出部分个体组成的集合样本容量：样本中所含个体的数目

常用统计量含义

均值：样本(一组数据)的算术平均值，反应数据的集中趋势

方差：描述一组数据的离散程度或样本个体距离均值的分散程度

频率：频数与样本容量的比值

众数：样本中出现次数最多的值，若所有值出现的次数一样多则认为样本没有众数

分位数：将一个随机变量的概率分布范围分为几个等份的数值点
(1)中位数：样本容量为奇数时，处在中间的数，否则为最中间两个数的平均值
(2)四分位数：将样本从小到大排列后分为4等份，处于3个分割点位置的数值即为所求。

pandas数据结构–Series 、DataFrame

使用前需要导入库：
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

Series------一维数据由索引(index)和值(values)两个相关联的数组组成 Series([values, index, …]) values:为列表或由np.array()创建的一维ndarray对象
index:列表，若省略则自动生成0~n-1的序号标签索引

DataFrame—二维数据和高维数据

Series------一维数据

创建方式：
方式1：借助numpy函数创建一维数组

import numpy as np
import pandas as pd
from pandas import Series
data= Series(np.arange(0,5), index=['13', '14', '7', '2','9']

方式2：

height= Series([187, 190, 185, 178, 185], index=['13', '14', '7', '2','9'])

方式3：用字典创建Series，将字典的键(key)作为索引

height= Series({'13':187,'14':190,'7':185,'2':178,'9':185})

Series数据选取

索引名选取：
obj[index]—选取某个值—只显示索引对应的值，不显示索引
obj[indexList]—选取多个值–索引和值均显示若索引名为数字则（详细理解请看索引修改处的例子）：
obj.loc[a:b]—选取a~b行的值 obj.loc[[indexList]]

基于位置(下标)选取：
obj[loc]—选取某个值—只显示该位置下标对应的值，不显示索引
obj[locList]—选取多个值—索引和值均显示

obj[a:b]—选取位置a~(b-1)的值—索引和值均显示

条件筛选：
obj[condition]—选取满足条件表达式的值

import pandas as pd
from pandas import Series
height= Series([187, 190, 185, 178, 185], index=['13', '14', '7', '2','9'])
height
#索引名选取
a0= height['13']
a1=height[['13','7']]
#位置选取
a2=height[2]
a3=height[[0,1,3]]
a4=height[1:3]
#条件筛选(布尔型)
a5=height[height.values>=186]

print("{}\n{}\n{}\n{}\n{}\n{}\n".format(a0,a1,a2,a3,a4,a5))
	>>> 187
		13    187
		7     185
		dtype: int64
		185
		13    187
		14    190
		2     178
		dtype: int64
		14    190
		7     185
		dtype: int64
		13    187
		14    190
		dtype: int64

Series数据修改

基于索引名修改：
obj[index]=修改值—选取某个值—只显示索引对应的值，不显示索引
obj[indexList]=修改值/修改值列表—选取多个值–索引和值均显示

基于位置修改：
obj[loc]=修改值—选取某个值—只显示该位置下标对应的值，不显示索引
obj[locList]=修改值/修改值列表—选取多个值—索引和值均显示
obj[a:b]=修改值/修改值列表—选取位置a~(b-1)的值—索引和值均显示

基于条件修改：
obj[condition]=修改值—选取满足条件表达式的值

height
	>>> 13    187
		14    190
		7     185
		2     178
		9     185
		dtype: int64
height['13']= 188
height
	>>> 13    188
		14    190
		7     185
		2     178
		9     185
		dtype: int64
height[1:3]=160
height
	>>> 13    188
		14    160
		7     160
		2     178
		9     185
		dtype: int64
height[1:3]=[155,165]
height
	>>> 13    188
		14    155
		7     165
		2     178
		9     185
		dtype: int64

索引修改

Series对象创建后，值可以修改，索引也修改，索引用新的列表替换即可
obj.index=indexList

注意索引均为数字的形式–此时基于位置序号访问需要使用iloc方式,例子如下：

height
	>>> 13    188
		14    155
		7     165
		2     178
		9     185
		dtype: int64
		
height.index=[1,2,3,4,5]
height
	>>> 1    188
		2    155
		3    165
		4    178
		5    185
		dtype: int64
		
aa0= height.loc[[1,5]]
aa1= height.loc[1:5]
print("{}\n{}\n".format(aa0, aa1))
	>>> 1    188
		5    185
		dtype: int64
		1    188
		2    155
		3    165
		4    178
		5    185
		dtype: int64

a7=height[5]#为obj[index],5此时代表索引,结果为188
a8=height.iloc[5]#5此时为位置下标，结果为75
print(a7,a8)
	>>> 188 75

Series数据添加–最好利用append()函数拼接

方式1：obj.append(a)
方式2：obj[index]=value

#方式1：
#obj.append(a)---出现在第一次课List相关方法中
#注意:append()函数不改变原Series，即height的元素及索引还是原来的内容，
#所以需要将拼接后的Series给new
a= Series([190,187], index=['23','5'])
new=height.append(a)
new
	>>> 13    188
		14    155
		7     165
		2     178
		9     185
		23    190
		5     187
		dtype: int64
		
height.append(Series([2],index=['1']))
height
	>>> 13    188
		14    155
		7     165
		2     178
		9     185
		dtype: int64

#方式2：
height['6']=75
height
	>>> 13    188
		14    155
		7     165
		2     178
		9     185
		6      75
		dtype: int64

Series数据删除

方式1：基于索引删除
obj.drop(index,inplace,…)
obj.drop(indexList,inplace,…)
inplace=True 直接覆盖到元Series的内容变为更改后的内容

方式2：基于位置删除—index出现在第一次课Tuple和List的相关函数中
obj.drop(obj.index[loc])或obj.drop(obj.index[locList])或obj.drop(obj.index[a:b])

b0= height.drop(['13'])
b0
	>>> 14    155
		7     165
		2     178
		9     185
		dtype: int64
		
#height.index[1]返回height中位置下标为1的元素的索引
b1=height.drop(height.index[1])
b1
	>>> 13    188
		7     165
		2     178
		9     185
		dtype: int64

思考与练习1

import pandas as pd
from pandas import Series
data=Series([30, 25, 27, 41, 25, 34], index= ['a', 'b', 'c', 'd', 'e', 'f'])
data
	>>> a    30
		b    25
		c    27
		d    41
		e    25
		f    34
		dtype: int64

'''
添加数据方式1：
a=Series([27], index= ['g'])
new= data.append(a)
new
'''
#添加数据方式2：
data['g']= 27
data
	>>> a    30
		b    25
		c    27
		d    41
		e    25
		f    34
		g    27
		dtype: int64

data[data.values>27]
	>>> a    30
		d    40
		f    34
		dtype: int64

data.drop(data.index[1:4], inplace= True)
data
	>>> a    30
		e    25
		f    34
		g    27
		dtype: int64

DataFrame—二维数据

DataFrame包括values、index(行索引)、columns(列索引)三部分

DataFrame(values, index=[…], columns=[…])
values:列表或由numpy生成的二维ndarray对象
index、columns:列表，若省略则自动生成0~n-1的序号标签

import pandas as pd
from pandas import DataFrame
data0= [[19, 170, 68], [20, 165, 65], [18, 175, 65]]
students= DataFrame(data0, index= [1, 2 ,3], columns= ['age', 'height', 'weight'])
students
	>>> 
	age	height	weight
1	19	 170	68
2	20	 165	65
3	18	 175	65

DataFrame数据选取

索引名选取：
obj[col]------选取某列 obj[colList]—选取某几列
obj.loc[index,clo]—选取某行某列 obj.loc[indexList,colList]—选取多行多列
若index和columns索引均为数字：
obj.loc[a:b,c:d]—选取a~~b行,c~d列
obj.loc[indexList, colList]

基于位置序号选取：
obj[a:b]—选取a~b-1行的所有列，列的：可以省略 obj.iloc[iloc,cloc]—选取某行某列
obj.iloc[ilocList,clocList]—选取多行多列
obj.iloc[a:b,c:d]—选取a~~b-1行，c~d-1列

基于条件筛选：
obj.loc[condition,colList]—使用索引构造条件表达式，选取满足条件的行
obj.iloc[condition,clocList]—使用位置序号构造条件表达式，选取满足条件的行(根据位置序号筛选暂时无例子)

c= students[['height', 'weight']]#查询所有同学的身高和体重
#等同于students.loc[:, ['height', 'weight']]

c0= students.loc[1, 'age']#查询1号同学的年龄
c1= students.loc[[1, 3], ['height', 'weight']] #查询1、3号同学的身高和体重
c2= students.iloc[[0, 2], [0, 1]]#查询第0、2行的第0、1列的值
print("{}\n{}\n{}\n{}\n".format(c, c0, c1, c2))
	>>> 
	   height  weight
  1     170      68
  2     165      65
  3     175      65
  19
     height  weight
  1     170      68
  3     175      65
     age  height
  1   19     170
  3   18     175

students[0:2]#等同于students.iloc[0:2]或students.iloc[0:2,:]
	>>> 
		 age	height	weight
   1	  19	170		68
   2	  20	165	    65

students.columns=[4,5,6]
students
	>>> 
	
		4	5	6
	1	19	170	68
	2	20	165	65
	3	18	175	65

students.loc[1:3,4:5]#基于索引选取（索引均为数字）
	>>>
		4	5
	1	19	170
	2	20	165
	3	18	175
	
students.iloc[1:3,0:2]#基于位置选取
	>>>
		4	5
	2	20	165
	3	18	175

#筛选身高大于168的同学，显示其身高和体重值
students.loc[students.loc[:,'height']>=168]
#等同于students.loc[students['height']>=168]
	>>>
	1    19
	3    18
	Name: age, dtype: int64

#筛选身高大于168的同学，显示其身高
students.loc[students['height']>=168,'height']
	>>>
	1    170
	3    175
	Name: height, dtype: int64

DataFrame数据修改

基于索引名修改：
obj[col]=修改值
obj[colList]=修改值/修改值列表—选取某几列
obj.loc[index,clo]=修改值—选取某行某列
obj.loc[indexList,colList]=修改值/修改值列表—选取多行多列
若index和columns索引均为数字：
obj.loc[a:b,c:d]=修改值/修改值列表—选取a_b行,cd列
obj.loc[indexList, colList]=修改值/修改值列表

基于位置序号修改：
obj[a:b]=修改值/修改值列表—选取a~b-1行的所有列，列的：可以省略
obj.iloc[iloc,cloc]=修改值—选取某行某列
obj.iloc[ilocList,clocList]=修改值/修改值列表—选取多行多列
obj.iloc[a:b,c:d]=修改值/修改值列表—选取a_b-1行，cd-1列

基于条件筛选修改：
obj.loc[condition,colList]=修改值/修改值列表—使用索引构造条件表达式
obj.iloc[condition,clocList]=修改值/修改值列表—使用位置序号构造条件表达式
修改DataFrame中的大于m的所有元素：
obj[obj >m]=修改值 ===obj[obj.values > m]= 修改值

students
	>>>
		age	 height	weight
  1		19	  170	 68
  2		20	  165	 65
  3		18	  175	 65

students.loc[1,'age']=95
students
	>>>
			age	height	weight
		1	95	 170	68
		2	20	 165	65
		3	18	 175	65

students.loc[1,:]=[21, 180, 70, 20]
students
	>>>
	
		age	height	weight	expense
  1		21	 180	  70	  20
  2		20	 165	  65	 1000
  3		18	 175	  65	 1000

DataFrame索引修改

df.index=[…] 修改行索引
df.columns=[…] 修改列索引

students.index=[4,5,6]
students.columns=['qwe', 'asd', 'zxc']
students
	>>>
		qwe	asd	zxc
  4		95	170	68
  5		20	165	65
  6		18	175	65

students.index=[1,2,3]
students.columns=['age', 'height', 'weight']
students
	>>>
		age	height	weight
	1	 95	 170	 68
	2	 20	 165	 65
	3	 18	 175	 65

DataFrame数据添加

若列索引标签不存在则添加新列，反之则为修改该列索引所在列的值

DataFrame对象可以添加新的列，但不能直接添加新的行，增加行需要通过两个DataFrame对象的合并实现—即：
import pandas as pd
newstu = pd.concat([obj1,obj2], axis=0)–将obj2的所有行合并到obj1中
详见本章数据规整化数据合并的内容

students
	>>>
		age	height	weight
	1	19	 170	 68
	2	20	 165	 65
	3	18	 175	 65
	
students['expense']=[1500, 1600, 1200]
students
	>>>
		age	height	weight	expense
	1	19	 170	  68	1500
	2	20	 165	  65	1600
	3	18	 175	  65	1200

students['expense']=[200,1000,1000]
students
	>>>
		age	height	weight	expense
	1	19	 170	  68	200
	2	20	 165	  65	1000
	3	18	 175	  65	1000

students.loc[students['expense']<500,'expense']= 1200
students
	>>>
		age	height	weight	expense
	1	19	 170	  68	1200
	2	20	 165	  65	1000
	3	18	 175	  65	1000

DataFrame数据删除

基于索引删除：

删除行：
obj.drop(index,axis,inplace,…)
obj.drop(indexList,axis,inplace,…)
obj.drop(obj.index[a:b],axis=0)===obj.drop(obj.index[ilocList],axis=0)

删除列：
obj.drop(columns,axis,inplace,…)
obj.drop(colList,axis,inplace,…)
obj.drop(obj.columns[a:b],axis=1)===obj.drop(obj.columns[[cloList]],axis=1)

#删除行
students.drop(1,axis=0)
	>>>
		age	height	weight	expense
	2	20	 165	  65	1000
	3	18	 175	  65	1000

#删除多行
students.drop([1,2], axis=0)
	>>>
		age	height	weight	expense
	3	18	 175	  65	1000

#删除列
students.drop('age',axis=1)
	>>>
		height	weight	expense
	1	 170	  68	1200
	2	 165	  65	1000
	3	 175	  65	1000

students.drop(students.index[[0,1]],axis= 0)
	>>>
		age	height	weight	expense
	3	18	 175	  65	1000

课后练习1

import pandas as pd
from pandas import DataFrame
import numpy as np
data0= DataFrame(np.arange(1,10).reshape(3,3), index= ['a', 'b', 'c'], columns= ['one', 'two', 'three'])
data0
	>>>
		one	two	three
	a	  1	  2	  3
	b	  4	  5	  6
	c	  7	  8	  9

data0[['one', 'two']]
	>>>
		one	two
	a	 1	 2
	b	 4	 5
	c	 7	 8

data0.iloc[[0,2], [0,2]]
	>>>
		one	three
	a	 1	 3
	c	 7	 9

data1= data0.loc[data0['one'] > 2]
data1
	>>>
		one	two	three
	b	 4	 5	 6
	c	 7	 8	 9

data1['four']= 10
data1
	>>>
		one	two	three	four
	b	 4	 5	 6	    10
	c	 7	 8	 9	    10

data1[data1.values > 9]= 8#等同于data1[data1 > 9]= 8
data1
	>>>
		one	two	three	four
	b	 4	 5	  6		 8
	c	 7	 8	  9		 8

data1.drop(data1.index[0:2],axis= 0)
	>>>	
		one	two	three	four

数据文件的读写—基于pandas库

pandas支持多种格式的数据导入和导出
    CSV TXT Excel HTML等文件格式
    MySQL SQLServer等数据库格式
    JSON等Web API数据交换格式

读取CSV文件

pd.read_csv(file,sep=‘,’,header=‘infer’, index_col=None, names=None,skiprows,nrows…)

参数已经写上的代表是默认值eg:header=‘infer’

file：字符串（意思就是加上单引号的内容），文件路径及文件名

sep：字符串，各行数据之间的分隔符，默认为‘,’。具体请详见文本文件的读取

nrows：读取数据的行数

注意：只有在obj.to_csv()保存文件的函数中，参数header才有header=True

header：
‘infer’—系统自动默认推断列索引
None—知名文件中不包括列索引，列索引名可由name给出
int整型–如header=0文件的数据中位置下标为0的那一行为列索引；
list of int—整数列表

index_col：数字，用作行索引的列
index_col=0 文件中的数据的位置下标为0的那一列为数据的行索引

names：列表，定义列索引，默认文件中第一行是列索引

skiprows：整数或列表，需要忽略的行数或需要跳过的行号列表

文件内数据读取

data=pd.read_csv(‘E:\data\student1.csv’, index_col=0)
data[-a:]—显示最后a行数据
data[:a]—显示前a行数据
data[a:b]—显示第(a+1)~b行数据
data[-a:-b]—显示倒数第a行至倒数第b+1行数据

import pandas as pd
#读取文件，并以文件中位置下标为0的那一列作为行索引
qwe=pd.read_csv('E:\data\student1.csv', index_col=0,header= 'infer')
a0= qwe[-3:]#读取文件中的最后三行数据
qwe[-4:]#读取最后4行数据
	>>>
		性别	年龄	身高	体重	省份	成绩
序号						
2		male	  22	 180	  71	GuangXi   77
3		male	  22	 180	  62	FuJian	  57
4		male	  20	 177	  72	LiaoNing  79
5		male	  20	 172	  74	ShanDong  91

特殊csv文件读取

pd.read_table((file,sep=‘,’,header=‘infer’,index_col=None,names=None,skiprows,nrows…))

适用于.csv文件的每行的内容数据均在一个方格内，如下所示：

执行代码：

fruit_data= pd.read_table(r'E:\fruit_data_with_colors.csv')
(display)fruit_data

运行结果显示为：

保存CSV文件

obj.to_csv(file,sep,mode,index,header,…)

file：保存的路径及文件名
sep：分隔符，默认为’,’
mode：导出模式，w为导出到新文件，a为将需要保存的文件数据追加到现有文件数据的最后 mode=‘w’ mode=‘a’
index：是否导出文件数据自带的行索引，默认为True，若为False则系统自动匹配行索引
header：是否导出文件数据自带的列索引，默认为True，若为False则系统自动匹配列索引

注意：mode='a’将文件数据追加到另一个文件中时，必须保证另一个文件是未被打开的状态，否则会报错

import pandas as pd
from pandas import DataFrame, Series
data = [[19,68,170],[20,65,165],[18,65,175]]
students =DataFrame( data,index=[1,2,3],columns=['age','weight','height'] )
#将.csv文件保存到在E盘新创建的qwe.csv文件中
students.to_csv('E:\qwe.csv',mode= 'w')
#将.csv文件追加到qwe.csv文件的末尾
students.to_csv('E:\qwe.csv',mode= 'a')

读取文本文件

pd.read_csv(file,sep=‘,’,header=‘infer’, index_col=None, names=None,skiprows,…)
与读取CSV文件一样，都是利用该函数

不是以逗号隔开的文本文件，读取时需要设置分隔参数sep
分隔符既可以是指定字符串，也可以是正则表达式

常用的通配符如下：
\s------空格等空白字符
\S------非空白字符
\t------制表符
\n------换行符
\d------数字
\D------非数字字符
当.txt文件内容是按表格形式编排的，且该文件内容之间不是以逗号隔开，此时就
可以加上sep='\t’将.txt文件变为以表格形式呈现出其内容，详情请见例子

colNames= ['性别', '年龄', '身高', '体重', '省份', '成绩']
student=pd.read_csv('E:\data\student2.txt', sep= '\t', header= None, index_col=0, names=colNames)
student
	>>>
		性别	年龄	身高	体重	省份	成绩
	1	male	 20	    170	     70		LiaoNing 71.0
	2	male	 22	    180	     71		GuangXi  NaN
	3	male	 22	    180	     62		FuJian	 57.0
	4	male	 20	    177	     72		LiaoNing 79.0
	5	male	 20	    172	     74		ShanDong 91.0

读取Excel文件

pd.read_excel(file, sheetname,index_col, header,names,skiprows,…)—与pd.read_csv()函数内的参数相同

读取Excel文件中也无header= True
注意：从Excel文件中读取数据的函数类似CSV文件，需要给出数据所在的Sheet表单名即sheetname

student1=pd.read_excel('E:\data\student3.xlsx', 'Group1', index_col=0, skiprows=3, header= 'infer')

读取xml文件（特殊）

import xml.etree.ElementTree as ET------导入相应的包
tree= ET.parse(xmlFile_path)------xml文件读取
root = tree.getroot() # 获取根节点

相关例子详见文本数据处理–>朴素贝叶斯模型–>实例：新闻分类(2)

思考与练习2

#第1题：
import pandas as pd
from pandas import DataFrame
import numpy as np
data5=DataFrame(np.random.randint(10,100,(50,7)), columns=['a', 'b', 'c', 'd', 'e', 'f', 'g'])
data5.to_csv('E:\qwe.csv', mode='w')
#第2题
import pandas as pd
from pandas import DataFrame
colNames=['flymiles', 'videogame', 'icecream', 'type']
data0= pd.read_excel('E:\data\datingTestSet.xls', skiprows= 2, header= None, names=colNames )
#以下代码省略运行结果展示
data0[:5]
data0[data0['type']== 'largeDoses']
data0[data0['videogame'] > 10]= 10
data0

数据文件的清洗

数据滤除

obj.dropna(axis, how, thresh,…)
obj.dropna() 参数缺省则为删除含有缺失值的行

axis= 0 按行滤除 axis=1 按列滤除默认为axis= 0
how=‘all’ 滤除全部值均为NaN的行或列
thresh 只留下有效数据大于或等于thresh值的行或列

import pandas as pd
stu= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group1', index_col=0)
stu.dropna()#删除带有缺失值的行
stu.dropna(thresh= 8)#保留有效数据大于等于8的行

缺失数据列监测

若any函数缺失则会以表的形式显示检测中是否存在NaN,得到布尔型DataFrame对象，详见例子

stu.isnull().any()------以每个列标签为基本单位查找列标签所在列是否有空值

stu.isnull().any()
	>>>
	性别      False
	年龄       True
	身高      False
	体重       True
	省份      False
	成绩       True
	月生活费     True
	课程兴趣    False
	案例教学    False
	dtype: bool

stu.isnull()------查看表格的每个数据是否有空值

stu.isnull()
	>>>
		性别	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学
序号									
 1		False	False	False	False	False	True	 False		False		False
 2		False	False	False	False	False	False	 False		False		False
 3		False	True	False	False	False	False	 False		False		False
 4		False	False	False	False	False	False	 False		False		False
 5		False	False	False	True	False	False	 True		False		False
 6		False	False	False	False	False	False	 False		False		False
 7		False	False	False	False	False	False	 False		False		False
 8		False	False	False	False	False	False	 False		False		False
 9		False	False	False	False	False	False	 False		False		False
10		False	False	False	False	False	False	 False		False		False

数据去重

obj.drop_duplicates(inplace,…)
将完全相同的两行或多行数据删除至一行

stu0 = pd.read_excel('E:\data\studentsInfo.xlsx','Group1',index_col=0)
stu0.drop_duplicates()#序号为9的那一行被删除

数据填充

obj.fillna (value, method, inplace…)

value 填充值，可以是标量、字典、Series、DataFrame
method= ‘ffill’：同列前一行数据填充缺失值
method= ‘bfill’：用同列后一行数据填充缺失值
inplace 是否修改原始数据的值，默认为False,产生一个新的数据对象

以上三个参数均是产生新的数据对象，原始数据不会被修改,除非加上inplace=True

注意： obj.fillna(a)即缺失数据全部填充为a
obj.fillna(0)------缺失数据全部填充为0

数据填充四种方式：
(1)用默认值填充
(2)用已有数据的平均值/中位数填充
(3)用NaN填充整列或整行–需导入numpy库 eg: obj[col]= np.nan
(4)列填充：构造{‘列索引名’:值}形式的字典对象作为实际参数，详见例子

#年龄用默认值20填充，体重用平均值填充
stu.fillna({'年龄':20, '体重':stu['体重'].mean()})
#用同列的前一行填充
stu.fillna(method='ffill')

思考与练习3

import pandas as pd
from pandas import DataFrame
import numpy as np
#第1题：
data= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group1')
data['案例教学']=np.nan
data.dropna(thresh= 8 ,axis=0)
data.dropna(how='all', axis= 1, inplace= True)
#第2题：
data.fillna({'体重': data['体重'].mean(), '成绩': data['成绩'].mean()}, inplace= True)
data['年龄'].fillna(method= 'ffill', inplace= True)
data.fillna({'月生活费': data['月生活费'].median()}, inplace= True)

数据规整化

数据合并

行数据追加

将两个完全相同的表合并到一块

pd.concat([obj1, obj2], axis= 0 )
将obj2的所有行追加到obj1的最后
注意： pd.concat()也可以进行列数据追加，详见列数据连接—>注意。

import pandas as pd
from pandas import DataFrame
colName = ['学号','姓名','专业']
data1 = [ ['202003101','赵成','软件工程'], ['202005114','李斌丽','机械制造'], ['202009111','孙武一','工业设计'] ]
stu1 = DataFrame( data1, columns=colName )
data2 = [['202003103','王芳','软件工程'], ['202005116','袁一凡','工业设计']]
stu2 = DataFrame( data2, columns=colName )
print(stu1,stu2)
	>>>
			学号	姓名	专业
	0	202003101	赵成	软件工程
	1	202005114	李斌丽	机械制造
	2	202009111	孙武一	工业设计
	
			学号	姓名	专业
	0	202003103	王芳	软件工程
	1	202005116	袁一凡	工业设计

newstu= pd.concat([stu1, stu2], axis= 0)
newstu
	>>>
			学号	姓名	专业
	0	202003101	赵成	软件工程
	1	202005114	李斌丽	机械制造
	2	202009111	孙武一	工业设计
	0	202003103	王芳	软件工程
	1	202005116	袁一凡	工业设计

列数据链接

方式1

pd.merge(x, y, how, left_on, right_on,…)

x 左数据对象

y 右数据对象

how 数据对象连接的方式，‘inner’ ‘outer’ ‘left’ ‘right’
默认为how= 'inner’内连接

inner 内连接，拼接两个数据对象中键值交集的行，其余忽略
outer 外连接，拼接两个数据对象中键值并集的行
left 左连接，取出x的全部行，拼接y中匹配的键值行
right 右连接，取出y的全部行，拼接x中匹配的键值行
其中’outer’ ‘left’ ‘right’：当某列数据不存在则自动填充为NaN

left_on 左数据对象用于连接的键

right_on 右数据对象用于连接的键

import pandas as pd
from pandas import DataFrame
cardcol=['ID', '刷卡地点', '刷卡时间', '消费金额']
data3=[['202003101','一食堂','20180305 1145',14.2], ['104574','教育超市','20180307 1730',25.2],['202003103','图书馆','20180311 1823'],['202005116','图书馆','20180312 0832'],['202005114','二食堂','20180312 1708',12.5],['202003101','图书馆','20180314 1345']]
card= DataFrame(data3, columns= cardcol)
#下标为2的消费金额为NaN的原因是['202003103','图书馆','20180311 1823']列表未列入消费金额
print(card, newstu)#newstu是行数据追加中所生成的表
	>>>
			ID		刷卡地点		刷卡时间		消费金额
	0	202003101	一食堂	20180305 1145	 14.2
	1	104574		教育超市	20180307 1730	 25.2
	2	202003103	图书馆	20180311 1823	 NaN
	3	202005116	图书馆	20180312 0832	 NaN
	4	202005114	二食堂	20180312 1708	 12.5
	5	202003101	图书馆	20180314 1345	 NaN

			学号	姓名	专业
	0	202003101	赵成	软件工程
	1	202005114	李斌丽	机械制造
	2	202009111	孙武一	工业设计
	0	202003103	王芳	软件工程
	1	202005116	袁一凡	工业设计

将card与newstu列合并

#left_on= '学号', right_on= 'ID' 即：合并到一起
#x表中学号与y表中ID相同的行合并为一行
#how= 'left'---以x表为基准，将右对象的表都拼接到左对象表中,缺失部分用NaN填补
#x= newstu, left_on= '学号',所以含有学号的newstu表在前，card在后
pd.merge(newstu, card, how= 'left', left_on= '学号', right_on= 'ID')
	>>>
			学号	姓名		专业	ID		刷卡地点		刷卡时间	消费金额
	0	202003101	赵成	软件工程	202003101	一食堂	20180305 1145	14.2
	1	202003101	赵成	软件工程	202003101	图书馆	20180314 1345	NaN
	2	202005114	李斌丽	机械制造	202005114	二食堂	20180312 1708	12.5
	3	202009111	孙武一	工业设计	NaN	NaN	NaN	NaN
	4	202003103	王芳	软件工程	202003103	图书馆	20180311 1823	NaN
	5	202005116	袁一凡	工业设计	202005116	图书馆	20180312 0832	NaN

#x= card, left_on= 'ID',所以含有ID的card表在前，newstu表在后
pd.merge(card, newstu,how= 'left', left_on= 'ID', right_on= '学号')
	>>>
			ID		刷卡地点		刷卡时间		消费金额		学号	姓名	专业
	0	202003101	一食堂	20180305 1145	14.2	202003101	赵成	软件工程
	1	104574		教育超市	20180307 1730	25.2		NaN		NaN		NaN
	2	202003103	图书馆	20180311 1823	NaN		202003103	王芳	软件工程
	3	202005116	图书馆	20180312 0832	NaN		202005116	袁一凡	工业设计
	4	202005114	二食堂	20180312 1708	12.5	202005114	李斌丽	机械制造
	5	202003101	图书馆	20180314 1345	NaN		202003101	赵成	软件工程

pd.merge(newstu, card, how= 'right', left_on= '学号', right_on= 'ID')
	>>>
			学号	姓名	专业	ID			刷卡地点		刷卡时间	消费金额
	0	202003101	赵成	软件工程	202003101	一食堂	20180305 1145	14.2
	1	NaN			NaN		NaN		104574		教育超市	20180307 1730	25.2
	2	202003103	王芳	软件工程	202003103	图书馆	20180311 1823	NaN
	3	202005116	袁一凡	工业设计	202005116	图书馆	20180312 0832	NaN
	4	202005114	李斌丽	机械制造	202005114	二食堂	20180312 1708	12.5
	5	202003101	赵成	软件工程	202003101	图书馆	20180314 1345	NaN

#how= 'inner'取两表的交集合并
pd.merge(newstu, card, how= 'inner', left_on= '学号', right_on= 'ID')
	>>>
			学号	姓名	  专业		ID		刷卡地点		刷卡时间	  消费金额
	0	202003101	赵成	软件工程	202003101	一食堂	20180305 1145	14.2
	1	202003101	赵成	软件工程	202003101	图书馆	20180314 1345	NaN
	2	202005114	李斌丽	机械制造	202005114	二食堂	20180312 1708	12.5
	3	202003103	王芳	软件工程	202003103	图书馆	20180311 1823	NaN
	4	202005116	袁一凡	工业设计	202005116	图书馆	20180312 0832	NaN

#how= 'outer'取两表的并集合并
pd.merge(newstu, card, how= 'outer', left_on= '学号', right_on= 'ID')
	>>>
			学号	姓名	  专业		ID		刷卡地点		刷卡时间	  消费金额
	0	202003101	赵成	软件工程	202003101	一食堂	20180305 1145	14.2
	1	202003101	赵成	软件工程	202003101	图书馆	20180314 1345	NaN
	2	202005114	李斌丽	机械制造	202005114	二食堂	20180312 1708	12.5
	3	202009111	孙武一	工业设计		NaN		   NaN			NaN		NaN
	4	202003103	王芳	软件工程	202003103	图书馆	20180311 1823	NaN
	5	202005116	袁一凡	工业设计	202005116	图书馆	20180312 0832	NaN
	6		NaN		 NaN	   NaN	   104574	教育超市	20180307 1730	25.2

方式2

只能用于表的列数据链接，不是表则可以使用pd.concat([obj1, obj2], axis= 1 )来进行列数据的链接。如下：

例1：grouped1、grouped2不是表，如下：

#将grouped2的列追加到grouped1上形成表，空值款式设为0
pd.concat(['grouped1', 'grouped2'], axis= 1 ).fillna(0)

运行结果显示为：

例2：将两个表name1、name2的列合并到一起，name1、name2如下：

pd.merge(name1, name2, left_on= 'info.款式', right_on= 'info.款式', how= 'left').fillna(0)

运行结果显示为：

方式3

df1.join(df2, how)

df1 = pd.DataFrame({'A': [3, 4, 8, 9], 'B': [1.2, 2.4, 4.5, 7.3], 'C': ["aa", "bb", "cc", "dd"]})
df2 = pd.DataFrame({'D': [1, 2]})
print(df1)
print(df2)

运行结果显示为：

df1.join(df2, how= 'inner')

运行结果显示为：

df1.join(df2, how= 'outer')

运行结果显示为：

df1.join(df2, how= 'left')

运行结果显示为：

df1.join(df2, how= 'right')

运行结果显示为：

数据排序及排名

Series和DataFrame均支持排序、排名

排序

obj.sort_values(by, ascending, inplace,…)

by 列索引，定义用于排序的列
指定单个列排序：
by=[col]
指定多个列排序：
by=[‘col1’, ‘col2’] 先按col1排序，若某些行col1相同，则这些行再按照col排序

ascending 排序方式,True为升序，False为降序

import pandas as pd
from pandas import DataFrame
stu0=  pd.read_excel('E:\data\studentsInfo.xlsx', 'Group3', index_col= 0)
#根据成绩进行降序排序---指定单个列进行排序
stu0.sort_values(by= '成绩', ascending=False)
	>>>
			性别	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学
	序号									
	30		female	20		168		52		JiangSu	 98			700		5		5
	21		female	21		165		45		ShangHai 93			1200	5		5
	23		male	21		169		80		GanSu	 93			900		5		5
	27		female	21		162		49		ShanDong 93			950		4		4
	22		female	19		167		42		HuBei	 89			800		5		5
	29		female	20		161		51		GuangXi	 80			1250	5		5
	28		female	22		160		52		ShanXi	 73			800		3		4
	25		female	21		162		54		GanSu	 68			1300	4		5
	26		male	21		181		77		SiChuan	 62			800		2		5
	24		female	21		160		49		HeBei	 59			1100	3		5

#指定多个列排序 
stu0.sort_values(by=['身高', '体重'], ascending= False)
	>>>
		性别	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学
	序号									
	26	male	21		181		77		SiChuan	 62			800		2		5
	23	male	21		169		80		GanSu	 93			900		5		5
	30	female	20		168		52		JiangSu	 98			700		5		5
	22	female	19		167		42		HuBei	 89			800		5		5
	21	female	21		165		45		ShangHai 93			1200	5		5
	25	female	21		162		54		GanSu	 68			1300	4		5
	27	female	21		162		49		ShanDong 93			950		4		4
	29	female	20		161		51		GuangXi	 80			1250	5		5
	28	female	22		160		52		ShanXi	 73			800		3		4
	24	female	21		160		49		HeBei	 59			1100	3		5

数据打乱

obj= obj.sample(frac= 1)

排名

排名给出每行的名次

obj.rank(axis, method, ascending,…)

axis=0(默认) 按行数据排名 axis=1 按列数据排名
method 并列时取值方式：min,max,average,first,dense
ascending 排序方式,True为升序，False为降序

#axis= 0可省略不写，此处加上时为了让其明白是按行数据进行排名
stu0['成绩排名']= stu0['成绩'].rank(method='dense', ascending= False, axis= 0)
stu0
	>>>
		性别	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学	成绩排名
	序号										
	21	female	21		165		45		ShangHai 93			1200	5		5	2.0
	22	female	19		167		42		HuBei	 89			800		5		5	3.0
	23	male	21		169		80		GanSu	 93			900		5		5	2.0
	24	female	21		160		49		HeBei	 59			1100	3		5	8.0
	25	female	21		162		54		GanSu	 68			1300	4		5	6.0
	26	male	21		181		77		SiChuan	 62			800		2		5	7.0
	27	female	21		162		49		ShanDong 93			950		4		4	2.0
	28	female	22		160		52		ShanXi	 73			800		3		4	5.0
	29	female	20		161		51		GuangXi	 80			1250	5		5	4.0
	30	female	20		168		52		JiangSu	 98			700		5		5	1.0

课后练习2

import pandas as pd
from pandas import DataFrame
#第一题：
data=pd.read_excel('E:\data\studentsInfo.xlsx', 'Group3')
data1= data[['序号', '性别', '年龄']]
data2= data[['序号', '身高', '体重']]
data0=pd.merge(data1, data2, how= 'inner', left_on= '序号', right_on= '序号')
#第二题：
data3= data[['序号', '省份', '成绩', '月生活费', '课程兴趣', '案例教学']]
datafinish= pd.merge(data0, data3, how='inner', left_on='序号', right_on= '序号')
datafinish.sort_values(by=['月生活费'], ascending= True)
datafinish['身高排名']= datafinish['身高'].rank(method= 'min', ascending= False)

统计分析

通用函数与运算

DataFrame、Series、标量之间的算术运算

df.t 即DataFrame转置
df1+df2 按照索引和列相加，得到并集，NaN补充 df1.add(df2, fill_value= 0) 按照索引和列相加，NaN用指定值填充
df1.add/sub//mul/div 四则运算
df-sr 即DataFrame的所有行同时减去Series
df*n 所有元素乘以n

DataFrame元素级的函数运算–import numpy as np

格式均为 np.ufunc(df)
abs、fabs 计算整数、浮点数或复数的绝对值
sqrt 计算各元素的平方根
square 计算各元素的平方
exp 计算各元素的指数

import pandas as pd
from pandas import DataFrame
import numpy as np
qwe= pd.read_excel('E:\data\studentsInfo.xlsx','Group3',index_col=0)
qwe['BMI']= qwe['体重']/np.square(qwe['身高']/100)

pandas常用统计函数

sr.value_counts() Series统计频率
sr.describe() 返回基本统计量和分位数
sr1.corr(sr2) sr1与sr2的相关系数
df.count() 统计每列数据个数
df.max()、df.min() 最大值和最小值
df.idxmax()、df.idxmin() 最大值、最小值对应的索引
df.idxmax()、df.idxmin() 最大值、最小值对应的索引
df.sum() 按行或列求和
df.mean()、df.median() 计算均值、中位数
df.quantile() 计算给定的四分位数
df.var()、df.std() 计算方差、标准差
df.mode() 计算众数
df.cumsum() 从0开始向前累加各元素
df.cov() 计算协方差矩阵
pd.crosstab(df[col1],df[col2]) pandas函数，交叉表，计算分组的频率
df.reset_index(inplace=True) 重新按照顺序设置index
df.head(num) ------参数为空(即n=0)则为显示前5行数据
display(df.head(num))------以df的原格式显示文件数据的前num行
df.shape------查看文件数据是几行几列

qwe['成绩'].mean()
	>>> 80.8
qwe['成绩'].median()#计算成绩的均值
	>>> 84.5
qwe['月生活费'].quantile([.25, .75])
#等同于qwe['月生活费'].quantile([0.25, 0.75])
	>>>
	0.25	800.0
	0.75	1175.0
	Name: 月生活费, dtype: float64

#sr.describe()返回基本统计量和分位数
qwe[['身高','体重','成绩']].describe()
	>>>
				身高		体重	成绩
	count	10.000000	10.0000	10.000000
	mean	165.500000	55.1000	80.800000
	std		6.381397	12.8448	14.389811
	min		160.000000	42.0000	59.000000
	25%		161.250000	49.0000	69.250000
	50%		163.500000	51.5000	84.500000
	75%		167.750000	53.5000	93.000000
	max		181.000000	80.0000	98.000000

#sr.value_counts()Series统计频率
qwe['成绩'].value_counts()
	>>>
	93    3
	89    1
	59    1
	68    1
	62    1
	73    1
	80    1
	98    1
	Name: 成绩, dtype: int64

分组（分组并统计个数）

根据某些索引将数据对象划分为多个组
对每个分组进行排序或统计计算

分组方式1：

grouped = obj.groupby(col) 或 grouped = obj.groupby(colList)
grouped.aggregate({‘col1’:f1, ‘col2’:f2,…})

col 统计列索引名
fi(i=1,2,…) numpy的聚合函数名，eg:sum、mean、std

grouped = stu.groupby(['性别', '年龄']) 
grouped.aggregate( {'身高':np.mean, '月生活费':np.max})
	>>>
						身高	月生活费
	性别	年龄		
	female	19.0	163.000000	1100.0
			20.0	164.000000	1400.0
			21.0	162.333333	1500.0
			22.0	160.000000	800.0
	male	19.0	171.250000	1100.0
			20.0	173.555556	1300.0
			21.0	174.900000	1300.0
			22.0	180.000000	1300.0

numpy的聚合函数名

np.sum 计算元素的和
np.prod 计算元素的积
np.mean 计算元素的平均值
np.std 计算元素的标准差
np.var 计算元素的方差
np.median 计算元素的中位数
np.percentile 计算基于元素排序的统计值
np.min 找出最小值
np.max 找出最大值
np.argmin 找出最小值的索引
np.argmax 找出最大值的索引
np.any 验证任何一个元素是否为真
np.all 验证所有元素是否为真

注意：已经说了是使用聚合函数名，所以在使用这些函数时不用加括号(),直接使用即可，eg: np.sum

分组方式2：

grouped=obj.groupby(col1)
grouped[col2].unique()
先根据col1进行分组，然后得出各col1中col2的分类

#分析各二级实验室能够支持的实验类型
support_grouped= df.groupby('二级实验室名称')
support_grouped['实验类型'].unique()
	>>>
	二级实验室名称
	人工智能实验室        [验证型, 设计型, 综合型]
	基础实验室               [验证型, 综合型]
	数据科学实验室    [验证型, 设计型, 综合型, 实训]
	Name: 实验类型, dtype: object

分组方式3：

根据col或colList分组后，统计每个分组的行数

Step1：grouped = obj.groupby(col) 或 grouped =obj.groupby(colList)
Step2：grouped.count()

解释：根据分组，统计每个列索引的内容所占的行数，若列索引的某一行中对应位置处的值为NaN，则不统计改行，详见例题

data01= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group1')
data01
	>>>
		序号	性别	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学
	0	1		male	20.0	170		70.0	LiaoNing NaN	800.0		5		4
	1	2		male	22.0	180		71.0	GuangXi	77.0	1300.0		3		4
	2	3		male	NaN		180		62.0	FuJian	57.0	1000.0		2		4
	3	4		male	20.0	177		72.0	LiaoNing 79.0	900.0		4		4
	4	5		male	20.0	172		NaN		ShanDong 91.0	NaN			5		5
	5	6		male	20.0	179		75.0	YunNan	 92.0	950.0		5		5
	6	7		female	21.0	166		53.0	LiaoNing 80.0	1200.0		4		5
	7	8		female	20.0	162		47.0	AnHui	 78.0	1000.0		4		4
	8	9		female	20.0	162		47.0	AnHui	 78.0	1000.0		4		4
	9	10		male	19.0	169		76.0 HeiLongJiang 88.0	1100.0		5		5

#先根据性别对数据进行分组
grouped= data01.groupby('性别')
#统计在性别的分组下每个列索引的行数，列索引的某一行若未赋值即NaN,则不统计
grouped.count()
	>>>
			序号	年龄	身高	体重	省份	成绩	月生活费	课程兴趣	案例教学
	性别									
	female	 3		 3		 3		 3		 3		 3		 3		 3		 3
	male	 7		 6		 7		 6		 7		 6		 6		 7		 7

另一种用法：（详见数据可视化知识点归纳总结中的课后作业第(5)问）

sex_grouped= data.groupby('sex')#将表根据sex性别进行分组
data1= sex_grouped['sex'].count()#统计不同性别的人数
#连在一块即为：
data.groupby('sex')['sex'].count()
#等同于
sex_grouped= data.groupby('sex')
sex_grouped.size()
#连在一块即为：
data.groupby('sex').size()

分组方式4：

obj.groupby(‘col’).size()

根据col对obj进行分组，并统计col的个数

grouped= data.groupby('Gender').size()
grouped
	>>> 
		Gender
		female    25
		male      25
		dtype: int64

obj.groupby([‘col1’, ‘col2’]).size()

先根据col1进行分组，再根据col2进行分组，并统计各个分组后的总数

grouped= data.groupby(['Gender', 'Province']).size()
grouped
	>>>
	Gender  Province    
	female  AnHui           2
           	ChongQing       1
          	GanSu           1
           	GuangXi         2
           	GuiZhou         2
	male    AnHui           1
        	BeiJing         1
        	ChongQing       2
        	FuJian          1
        	GanSu           2

分组方式5：

pd.crosstab(obj[col1], obj[col2])

统计col1的col2分布或现根据col1分组，然后对col2进行计数

#先根据性别将表分为两组，然后对月生活费进行计数，统计不同生活费的人数有多少
pd.crosstab(asd['性别'], asd['月生活费'])
	>>>
	
		月生活费	700	800	900	950	1100	1200	1250	1300
	性别								
	female		 1	 2	 0	 1	 1		 1		 1		 1
	male		 0	 1	 1	 0	 0		 0		 0		 0

分组方式6（补充）：

value_counts(values,sort=True, ascending=False, normalize=False,bins=None,dropna=True)
统计数据表中指定的列里有多少个不同的数据值，并计算每个不同值有在该列中的个数，同时还能根据指定得参数返回排序后结果

sort=True：是否要进行排序；默认进行排序
ascending=False：默认降序排列；
normalize=False：是否要对计算结果进行标准化并显示标准化后的结果，默认是False。
bins=None：可以自定义分组区间，默认是否
dropna=True：是否删除缺失值nan，默认删除

部分数如下：

train_df['label'].value_counts()

运行结果显示为：

统计案例分析

import pandas as pd
from pandas import DataFrame, Series
import numpy as np
df1= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group1', index_col=0)
df2= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group2', index_col=0)
df3= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group3', index_col=0)
df4= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group4', index_col=0)
df5= pd.read_excel('E:\data\studentsInfo.xlsx', 'Group5', index_col=0)
stu= pd.concat([df1,df2,df3,df4,df5], axis=0)
stu.drop_duplicates(inplace= True)#去除重复的行
stu.dropna(thresh=8,inplace= True)#去除含有缺失数据的行
stu.isnull().any()#查看列索引所引导的列中是否含有NaN空值
stu.fillna({'成绩':stu['成绩'].mean(), '年龄':20}, inplace= True)#有空值，填补含有空值的列索引
stu.isnull().any()#再次判断是否有空值
#分析成绩和课程兴趣的相关性，因为成绩和课程兴趣的列元素均为数字，所以可以直接用DataFrame.corr()来分析
stu_grade= stu.sort_values(by= ['成绩'], ascending= False)
ex= (stu_grade['成绩']>=90).sum()
fail= (stu_grade['成绩']>60).sum()
print("Excellent:{},Fail:{}".format(ex, fail))
	>>> Excellent:10,Fail:44
ex_mean= stu_grade[0:10][['成绩', '课程兴趣']].mean()
total_mean= stu_grade[['成绩', '课程兴趣']].mean()
fail_mean= stu_grade[-4:][['成绩', '课程兴趣']].mean()
print("ex_mean:{},total_mean:{},fail_mean:{}".format(ex_mean, total_mean, fail_mean))
print("成绩与课程兴趣的相关度为：{}".format(stu_grade['成绩'].corr(stu_grade['课程兴趣'])))
	>>>
	ex_mean:成绩      93.7
		课程兴趣     4.9
		dtype: float64,
	total_mean:成绩      76.934783
			课程兴趣     4.208333
		dtype: float64,
	fail_mean:成绩      46.0
			课程兴趣     3.0
		dtype: float64
	成绩与课程兴趣的相关度为：0.4803582640854468

#分析性别、省份与成绩是否存在相关性，由于性别和省份数据均为字符型，所以无法用DataFrame.corr()来计算相关性，所以方法为：分组计算均值，例子如下
sex_grouped= stu.groupby(['性别'])
sex_counts= sex_grouped.count()
sex_mean= stu.groupby('性别').aggregate({'成绩':np.mean})

pro_grouped= stu.groupby('省份')
pro_counts= pro_grouped.count()
pro_mean= stu.groupby('省份').aggregate({'成绩':np.mean})

print(sex_counts,'\n',sex_mean)
print(pro_counts,'\n',pro_mean)
	>>> 此处成略运行结果展示
#计算同学的BMI值，找出各个四分位数
stu['BMI']=stu['体重']/np.square(stu['身高']/100)
stu['BMI'].quantile([.25,.5,.75])
	>>>
	0.25    18.609210
	0.50    20.450285
	0.75    23.431521
	Name: BMI, dtype: float64

课后作业3

import pandas as pd
import numpy as np
from pandas import Series, DataFrame
df= pd.read_excel('E:\data\DataScience.xls',header= 'infer')
df.shape	
	>>> (96,11)
df.index
	>>> RangeIndex(start=0, stop=96, step=1)
df.columns
	>>>
	Index(['周次', '星期', '节次', '课程名称', '实验项目名称', '实验课时数', '实验类型', '班级'
	, '班级人数','二级实验室名称', '实验地点门牌号'],dtype='object')
df.isnull().any()#查询df中是否含有NaN数据
#将含有NaN数据的行导出为数据文件pre.csv
df[df.isnull().any(axis=1)].to_csv('E:\pre.csv', mode= 'w')
#
df.drop_duplicates(inplace= True)#去除重复的行
df.fillna(method='ffill', inplace= True)#将缺失的数据用该列的上一行数据填充
df1= df[['课程名称', '实验项目名称', '实验类型', '二级实验室名称']]
#统计每一门课程的实验课时数
project_grouped= df.groupby('课程名称')
project_grouped.aggregate({'实验课时数':np.sum})
	>>>
					实验课时数
	课程名称	
	Python语言程序设计	68.0
	商务数据分析			24.0
	大数据技术			32.0
	数据挖掘与机器学习	64.0
	数据科学导论			48.0
	数据结构				21.0
	重庆市				3.0
#统计每周开设所有实验课时数
week_grouped= df.groupby('周次')
week_grouped.aggregate({'实验课时数':np.sum})
#统计每门课程的实验类型分布（crosstab）
pd.crosstab(df['课程名称'], df['实验类型'])
#统计每个班级的实验课课表
asd= df[['班级','班级人数','周次','星期','节次','课程名称','实验项目名称','实验课时数','实验类型','二级实验室名称','实验地点门牌号']]
asd.sort_values(by = ['班级','周次','星期','节次'],ascending = True)
#分析各二级实验室承担的实验课时量
sdroom_grouped= df.groupby(['二级实验室名称','周次'])
sdroom_grouped.aggregate({'实验课时数':np.sum})
pd.crosstab(df['二级实验室名称'], df['实验课时数'])
#分析各二级实验室能够支持的实验类型
#方式一：
support_grouped= df.groupby('二级实验室名称')
support_grouped['实验类型'].unique()
	>>>
	二级实验室名称
	人工智能实验室        [验证型, 设计型, 综合型]
	基础实验室               [验证型, 综合型]
	数据科学实验室    [验证型, 设计型, 综合型, 实训]
	Name: 实验类型, dtype: object
#方式二：
pd.crosstab(df['二级实验室名称'], df['实验类型'])
	>>>
	
		实验类型		实训	综合型	设计型	验证型
	二级实验室名称				
	人工智能实验室	0		  2		  10	  20
	基础实验室		0		  3		  0		  22
	数据科学实验室	6		  7		  11	  14
#统计每个班级的实验课课表-------------知道就行，但不会用，因为这种方式显示出来的太乱了
grouped= df.groupby(['班级', '周次', '二级实验室名称', '实验类型', '星期', '实验项目名称', '节次', '实验课时数', '实验地点门牌号'])
grouped['课程名称'].unique()

你可能感兴趣的:(数据科学,python,数据分析,numpy,pycharm,jupyter)

理解Gunicorn：Python WSGI服务器的基石范范0825 ipython linux 运维
理解Gunicorn：PythonWSGI服务器的基石介绍Gunicorn，全称GreenUnicorn，是一个为PythonWSGI（WebServerGatewayInterface）应用设计的高效、轻量级HTTP服务器。作为PythonWeb应用部署的常用工具，Gunicorn以其高性能和易用性著称。本文将介绍Gunicorn的基本概念、安装和配置，帮助初学者快速上手。1.什么是Gunico
Python数据分析与可视化实战指南 William数据分析 python python 数据
在数据驱动的时代，Python因其简洁的语法、强大的库生态系统以及活跃的社区，成为了数据分析与可视化的首选语言。本文将通过一个详细的案例，带领大家学习如何使用Python进行数据分析，并通过可视化来直观呈现分析结果。一、环境准备1.1安装必要库在开始数据分析和可视化之前，我们需要安装一些常用的库。主要包括pandas、numpy、matplotlib和seaborn等。这些库分别用于数据处理、数学
python os.environ 江湖偌大 python 深度学习
os.environ['TF_CPP_MIN_LOG_LEVEL']='0'#默认值，输出所有信息os.environ['TF_CPP_MIN_LOG_LEVEL']='1'#屏蔽通知信息（INFO）os.environ['TF_CPP_MIN_LOG_LEVEL']='2'#屏蔽通知信息和警告信息（INFO\WARNING）os.environ['TF_CPP_MIN_LOG_LEVEL']='
Python中os.environ基本介绍及使用方法鹤冲天Pro #Python python 服务器开发语言
文章目录python中os.environos.environ简介os.environ进行环境变量的增删改查python中os.environ的使用详解1.简介2.key字段详解2.1常见key字段3.os.environ.get()用法4.环境变量的增删改查和判断是否存在4.1新增环境变量4.2更新环境变量4.3获取环境变量4.4删除环境变量4.5判断环境变量是否存在python中os.envi
Pyecharts数据可视化大屏：打造沉浸式数据分析体验我的运维人生信息可视化数据分析数据挖掘运维开发技术共享
Pyecharts数据可视化大屏：打造沉浸式数据分析体验在当今这个数据驱动的时代，如何将海量数据以直观、生动的方式展现出来，成为了数据分析师和企业决策者关注的焦点。Pyecharts，作为一款基于Python的开源数据可视化库，凭借其丰富的图表类型、灵活的配置选项以及高度的定制化能力，成为了构建数据可视化大屏的理想选择。本文将深入探讨如何利用Pyecharts打造数据可视化大屏，并通过实际代码案例
Python教程：一文了解使用Python处理XPath 旦莫 Python进阶 python 开发语言
目录1.环境准备1.1安装lxml1.2验证安装2.XPath基础2.1什么是XPath？2.2XPath语法2.3示例XML文档3.使用lxml解析XML3.1解析XML文档3.2查看解析结果4.XPath查询4.1基本路径查询4.2使用属性查询4.3查询多个节点5.XPath的高级用法5.1使用逻辑运算符5.2使用函数6.实战案例6.1从网页抓取数据6.1.1安装Requests库6.1.2代
python os.environ_python os.environ 读取和设置环境变量 weixin_39605414 python os.environ
>>>importos>>>os.environ.keys()['LC_NUMERIC','GOPATH','GOROOT','GOBIN','LESSOPEN','SSH_CLIENT','LOGNAME','USER','HOME','LC_PAPER','PATH','DISPLAY','LANG','TERM','SHELL','J2REDIR','LC_MONETARY','QT_QPA
使用Faiss进行高效相似度搜索 llzwxh888 faiss python
在现代AI应用中，快速和高效的相似度搜索是至关重要的。Faiss（FacebookAISimilaritySearch）是一个专门用于快速相似度搜索和聚类的库，特别适用于高维向量。本文将介绍如何使用Faiss来进行相似度搜索，并结合Python代码演示其基本用法。什么是Faiss？Faiss是一个由FacebookAIResearch团队开发的开源库，主要用于高维向量的相似性搜索和聚类。Faiss
python是什么意思中文-在python中%是什么意思编程大乐趣
Python中%有两种：1、数值运算：%代表取模，返回除法的余数。如：>>>7%212、%操作符（字符串格式化，stringformatting），说明如下：%[(name)][flags][width].[precision]typecode(name)为命名flags可以有+，-，''或0。+表示右对齐。-表示左对齐。''为一个空格，表示在正数的左侧填充一个空格，从而与负数对齐。0表示使用0填
Day1笔记-Python简介&标识符和关键字&输入输出 ~在杰难逃~ Python python 开发语言大数据数据分析数据挖掘
大家好，从今天开始呢，杰哥开展一个新的专栏，当然，数据分析部分也会不定时更新的，这个新的专栏主要是讲解一些Python的基础语法和知识，帮助0基础的小伙伴入门和学习Python，感兴趣的小伙伴可以开始认真学习啦！一、Python简介【了解】1.计算机工作原理编程语言就是用来定义计算机程序的形式语言。我们通过编程语言来编写程序代码，再通过语言处理程序执行向计算机发送指令，让计算机完成对应的工作，编程
python八股文面试题分享及解析(1) Shawn________ python
#1.'''a=1b=2不用中间变量交换a和b'''#1.a=1b=2a,b=b,aprint(a)print(b)结果：21#2.ll=[]foriinrange(3):ll.append({'num':i})print(11)结果:#[{'num':0},{'num':1},{'num':2}]#3.kk=[]a={'num':0}foriinrange(3):#0,12#可变类型，不仅仅改变
每日算法&面试题，大厂特训二十八天——第二十天（树）肥学 ⚡算法题⚡面试题每日精进 java 算法数据结构
目录标题导读算法特训二十八天面试题点击直接资料领取导读肥友们为了更好的去帮助新同学适应算法和面试题，最近我们开始进行专项突击一步一步来。上一期我们完成了动态规划二十一天现在我们进行下一项对各类算法进行二十八天的一个小总结。还在等什么快来一起肥学进行二十八天挑战吧！！特别介绍小白练手专栏，适合刚入手的新人欢迎订阅编程小白进阶python有趣练手项目里面包括了像《机器人尬聊》《恶搞程序》这样的有趣文章
Python快速入门 —— 第三节：类与对象孤华暗香 Python快速入门 python 开发语言
第三节：类与对象目标：了解面向对象编程的基础概念，并学会如何定义类和创建对象。内容：类与对象：定义类：class关键字。类的构造函数：__init__()。类的属性和方法。对象的创建与使用。示例：classStudent:def__init__(self,name,age,major):self.name&#
pyecharts——绘制柱形图折线图 2224070247 信息可视化 python java 数据可视化
一、pyecharts概述自2013年6月百度EFE(ExcellentFrontEnd）数据可视化团队研发的ECharts1.0发布到GitHub网站以来，ECharts一直备受业界权威的关注并获得广泛好评，成为目前成熟且流行的数据可视化图表工具，被应用到诸多数据可视化的开发领域。Python作为数据分析领域最受欢迎的语言，也加入ECharts的使用行列，并研发出方便Python开发者使用的数据
Python 实现图片裁剪（附代码） | Python工具剑客阿良_ALiang
前言本文提供将图片按照自定义尺寸进行裁剪的工具方法，一如既往的实用主义。环境依赖ffmpeg环境安装，可以参考我的另一篇文章：windowsffmpeg安装部署_阿良的博客-CSDN博客本文主要使用到的不是ffmpeg，而是ffprobe也在上面这篇文章中的zip包中。ffmpy安装：pipinstallffmpy-ihttps://pypi.douban.com/simple代码不废话了，上代码
【华为OD技术面试真题 - 技术面】- python八股文真题题库（4) 算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选**1.Python中的`with`**用途和功能自动资源管理示例：文件操作上下文管理协议示例代码工作流程解析优点2.\_\_new\_\_和**\_\_init\_\_**区别__new____init__区别总结3.**切片（Slicing）操作**基本切片语法
python os 环境变量 CV矿工 python 开发语言 numpy
环境变量：环境变量是程序和操作系统之间的通信方式。有些字符不宜明文写进代码里，比如数据库密码，个人账户密码，如果写进自己本机的环境变量里，程序用的时候通过os.environ.get（）取出来就行了。os.environ是一个环境变量的字典。环境变量的相关操作importos"""设置/修改环境变量：os.environ[‘环境变量名称’]=‘环境变量值’#其中key和value均为string类
Python爬虫解析工具之xpath使用详解 eqa11 python 爬虫开发语言
文章目录Python爬虫解析工具之xpath使用详解一、引言二、环境准备1、插件安装2、依赖库安装三、xpath语法详解1、路径表达式2、通配符3、谓语4、常用函数四、xpath在Python代码中的使用1、文档树的创建2、使用xpath表达式3、获取元素内容和属性五、总结Python爬虫解析工具之xpath使用详解一、引言在Python爬虫开发中，数据提取是一个至关重要的环节。xpath作为一门
【华为OD技术面试真题 - 技术面】- python八股文真题题库（1）算法大师华为od 面试 python
华为OD面试真题精选专栏：华为OD面试真题精选目录:2024华为OD面试手撕代码真题目录以及八股文真题目录文章目录华为OD面试真题精选1.数据预处理流程数据预处理的主要步骤工具和库2.介绍线性回归、逻辑回归模型线性回归（LinearRegression）模型形式：关键点：逻辑回归（LogisticRegression）模型形式：关键点：参数估计与评估：3.python浅拷贝及深拷贝浅拷贝（Shal
nosql数据库技术与应用知识点皆过客，揽星河 NoSQL nosql 数据库大数据数据分析数据结构非关系型数据库
Nosql知识回顾大数据处理流程数据采集(flume、爬虫、传感器)数据存储(本门课程NoSQL所处的阶段)Hdfs、MongoDB、HBase等数据清洗(入仓)Hive等数据处理、分析(Spark、Flink等)数据可视化数据挖掘、机器学习应用(Python、SparkMLlib等)大数据时代存储的挑战(三高)高并发(同一时间很多人访问)高扩展(要求随时根据需求扩展存储)高效率(要求读写速度快)
《Python数据分析实战终极指南》 xjt921122 python 数据分析开发语言
对于分析师来说，大家在学习Python数据分析的路上，多多少少都遇到过很多大坑**，有关于技能和思维的**：Excel已经没办法处理现有的数据量了，应该学Python吗？找了一大堆Python和Pandas的资料来学习，为什么自己动手就懵了？跟着比赛类公开数据分析案例练了很久，为什么当自己面对数据需求还是只会数据处理而没有分析思路？学了对比、细分、聚类分析，也会用PEST、波特五力这类分析法，为啥
Python中深拷贝与浅拷贝的区别 yuxiaoyu.
转自：http://blog.csdn.net/u014745194/article/details/70271868定义：在Python中对象的赋值其实就是对象的引用。当创建一个对象，把它赋值给另一个变量的时候，python并没有拷贝这个对象，只是拷贝了这个对象的引用而已。浅拷贝：拷贝了最外围的对象本身，内部的元素都只是拷贝了一个引用而已。也就是，把对象复制一遍，但是该对象中引用的其他对象我不复
Python开发常用的三方模块如下：换个网名有点难 python 开发语言
Python是一门功能强大的编程语言，拥有丰富的第三方库，这些库为开发者提供了极大的便利。以下是100个常用的Python库，涵盖了多个领域：1、NumPy，用于科学计算的基础库。2、Pandas，提供数据结构和数据分析工具。3、Matplotlib，一个绘图库。4、Scikit-learn，机器学习库。5、SciPy，用于数学、科学和工程的库。6、TensorFlow，由Google开发的开源机
ES聚合分析原理与代码实例讲解光剑书架上的书大厂Offer收割机面试题简历程序员读书硅基计算碳基计算认知计算生物计算深度学习神经网络大数据 AIGC AGI LLM Java Python 架构设计 Agent 程序员实现财富自由
ES聚合分析原理与代码实例讲解1.背景介绍1.1问题的由来在大规模数据分析场景中，特别是在使用Elasticsearch（ES）进行数据存储和检索时，聚合分析成为了一个至关重要的功能。聚合分析允许用户对数据集进行细分和分组，以便深入探索数据的结构和模式。这在诸如实时监控、日志分析、业务洞察等领域具有广泛的应用。1.2研究现状目前，ES聚合分析已经成为现代大数据平台的核心组件之一。它支持多种类型的聚
Python编译器鹿鹿~ Python编译器 Python python 开发语言后端
嘿嘿嘿我又来了啊有些小盆友可能不知道Python其实是有编译器的，也就是PyCharm。你们可能会问到这个是干嘛的又不可以吃也不可以穿好像没有什么用，其实你还说对了这个还真的不可以吃也不可以穿，但是它用来干嘛的呢。用来编译你所打出的代码进行运行（可能这里说的有点不对但是只是个人认为）现在我们来说说PyCharm是用来干嘛的。PyCharm是一种PythonIDE，带有一整套可以帮助用户在使用Pyt
一文掌握python面向对象魔术方法（二）程序员neil python python 开发语言
接上篇：一文掌握python面向对象魔术方法（一）-CSDN博客目录六、迭代和序列化：1、__iter__(self):定义迭代器，使得类可以被for循环迭代。2、__getitem__(self,key):定义索引操作，如obj[key]。3、__setitem__(self,key,value):定义赋值操作，如obj[key]=value。4、__delitem__(self,key):定义
一文掌握python常用的list（列表）操作程序员neil python python 开发语言
目录一、创建列表1.直接创建列表：2.使用list()构造器3.使用列表推导式4.创建空列表二、访问列表元素1.列表支持通过索引访问元素，索引从0开始：2.还可以使用切片操作访问列表的一部分：三、修改列表元素四、添加元素1.append()：在末尾添加元素2.insert()：在指定位置插入元素五、删除元素1.del：删除指定位置的元素2.remove()：删除指定值的第一个匹配项3.pop()：
Python实现简单的机器学习算法 master_chenchengg python python 办公效率 python开发 IT
Python实现简单的机器学习算法开篇：初探机器学习的奇妙之旅搭建环境：一切从安装开始必备工具箱第一步：安装Anaconda和JupyterNotebook小贴士：如何配置Python环境变量算法初体验：从零开始的Python机器学习线性回归：让数据说话数据准备：从哪里找数据编码实战：Python实现线性回归模型评估：如何判断模型好坏逻辑回归：从分类开始理论入门：什么是逻辑回归代码实现：使用skl
推荐算法_隐语义-梯度下降 _feivirus_ 算法机器学习和数学推荐算法机器学习隐语义
importnumpyasnp1.模型实现"""inputrate_matrix:M行N列的评分矩阵，值为P*Q.P:初始化用户特征矩阵M*K.Q:初始化物品特征矩阵K*N.latent_feature_cnt:隐特征的向量个数max_iteration:最大迭代次数alpha:步长lamda:正则化系数output分解之后的P和Q"""defLFM_grad_desc(rate_matrix,l
K近邻算法_分类鸢尾花数据集 _feivirus_ 算法机器学习和数学分类机器学习 K近邻
importnumpyasnpimportpandasaspdfromsklearn.datasetsimportload_irisfromsklearn.model_selectionimporttrain_test_splitfromsklearn.metricsimportaccuracy_score1.数据预处理iris=load_iris()df=pd.DataFrame(data=ir
辗转相处求最大公约数沐刃青蛟 C++漏洞
无言面对”江东父老“了，接触编程一年了，今天发现还不会辗转相除法求最大公约数。惭愧惭愧！为此，总结一下以方便日后忘了好查找。 1.输入要比较的两个数a,b 忽略：2.比较大小（因为后面要的是大的数对小的数做%操作） 3.辗转相除（用循环不停的取余，如a%b,直至b=0） 4.最后的a为两数的最大公约数 &
F5负载均衡会话保持技术及原理技术白皮书 bijian1013 F5 负载均衡
一.什么是会话保持？在大多数电子商务的应用系统或者需要进行用户身份认证的在线系统中，一个客户与服务器经常经过好几次的交互过程才能完成一笔交易或者是一个请求的完成。由于这几次交互过程是密切相关的，服务器在进行这些交互过程的某一个交互步骤时，往往需要了解上一次交互过程的处理结果，或者上几步的交互过程结果，服务器进行下
Object.equals方法：重载还是覆盖 Cwind java generics override overload
本文译自StackOverflow上对此问题的讨论。原问题链接在阅读Joshua Bloch的《Effective Java（第二版）》第8条“覆盖equals时请遵守通用约定”时对如下论述有疑问： “不要将equals声明中的Object对象替换为其他的类型。程序员编写出下面这样的equals方法并不鲜见，这会使程序员花上数个小时都搞不清它为什么不能正常工作：” pu
初始线程 15700786134
暑假学习的第一课是讲线程，任务是是界面上的一条线运动起来。既然是在界面上，那必定得先有一个界面，所以第一步就是，自己的类继承JAVA中的JFrame，在新建的类中写一个界面，代码如下： public class ShapeFr
Linux的tcpdump 被触发 tcpdump
用简单的话来定义tcpdump，就是：dump the traffic on a network，根据使用者的定义对网络上的数据包进行截获的包分析工具。 tcpdump可以将网络中传送的数据包的“头”完全截获下来提供分析。它支持针对网络层、协议、主机、网络或端口的过滤，并提供and、or、not等逻辑语句来帮助你去掉无用的信息。实用命令实例默认启动 tcpdump 普通情况下，直
安卓程序listview优化后还是卡顿肆无忌惮_ ListView
最近用eclipse开发一个安卓app，listview使用baseadapter，里面有一个ImageView和两个TextView。使用了Holder内部类进行优化了还是很卡顿。后来发现是图片资源的问题。把一张分辨率高的图片放在了drawable-mdpi文件夹下，当我在每个item中显示，他都要进行缩放，导致很卡顿。解决办法是把这个高分辨率图片放到drawable-xxhdpi下。 &nb
扩展easyUI tab控件，添加加载遮罩效果知了ing jquery
(function () { $.extend($.fn.tabs.methods, { //显示遮罩 loading: function (jq, msg) { return jq.each(function () { var panel = $(this).tabs(&
gradle上传jar到nexus 矮蛋蛋 gradle
原文地址： https://docs.gradle.org/current/userguide/maven_plugin.html configurations { deployerJars } dependencies { deployerJars "org.apache.maven.wagon
千万条数据外网导入数据库的解决方案。 alleni123 sql mysql
从某网上爬了数千万的数据，存在文本中。然后要导入mysql数据库。悲剧的是数据库和我存数据的服务器不在一个内网里面。。 ping了一下， 19ms的延迟。于是下面的代码是没用的。 ps = con.prepareStatement(sql); ps.setString(1, info.getYear())............; ps.exec
JAVA IO InputStreamReader和OutputStreamReader 百合不是茶 JAVA.io操作字符流
这是第三篇关于java.io的文章了，从开始对io的不了解-->熟悉--->模糊，是这几天来对文件操作中最大的感受，本来自己认为的熟悉了的，刚刚在回想起前面学的好像又不是很清晰了，模糊对我现在或许是最好的鼓励我会更加的去学加油！： JAVA的API提供了另外一种数据保存途径，使用字符流来保存的，字符流只能保存字符形式的流字节流和字符的难点：a,怎么将读到的数据
MO、MT解读 bijian1013 GSM
MO= Mobile originate，上行，即用户上发给SP的信息。MT= Mobile Terminate，下行，即SP端下发给用户的信息；上行:mo提交短信到短信中心下行:mt短信中心向特定的用户转发短信，你的短信是这样的，你所提交的短信，投递的地址是短信中心。短信中心收到你的短信后，存储转发，转发的时候就会根据你填写的接收方号码寻找路由，下发。在彩信领域是一样的道理。下行业务：由SP
五个JavaScript基础问题 bijian1013 JavaScript call apply this Hoisting
下面是五个关于前端相关的基础问题，但却很能体现JavaScript的基本功底。问题1：Scope作用范围考虑下面的代码： (function() { var a = b = 5; })(); console.log(b); 什么会被打印在控制台上？回答：上面的代码会打印 5。 &nbs
【Thrift二】Thrift Hello World bit1129 Hello world
本篇，不考虑细节问题和为什么，先照葫芦画瓢写一个Thrift版本的Hello World，了解Thrift RPC服务开发的基本流程 1. 在Intellij中创建一个Maven模块，加入对Thrift的依赖，同时还要加上slf4j依赖，如果不加slf4j依赖，在后面启动Thrift Server时会报错 <dependency>
【Avro一】Avro入门 bit1129 入门
本文的目的主要是总结下基于Avro Schema代码生成，然后进行序列化和反序列化开发的基本流程。需要指出的是，Avro并不要求一定得根据Schema文件生成代码，这对于动态类型语言很有用。 1. 添加Maven依赖 <?xml version="1.0" encoding="UTF-8"?> <proj
安装nginx+ngx_lua支持WAF防护功能 ronin47
需要的软件:LuaJIT-2.0.0.tar.gz nginx-1.4.4.tar.gz &nb
java-5.查找最小的K个元素-使用最大堆 bylijinnan java
import java.util.Arrays; import java.util.Random; public class MinKElement { /** * 5.最小的K个元素 * I would like to use MaxHeap. * using QuickSort is also OK */ public static void
TCP的TIME-WAIT bylijinnan socket
原文连接： http://vincent.bernat.im/en/blog/2014-tcp-time-wait-state-linux.html 以下为对原文的阅读笔记说明：主动关闭的一方称为local end，被动关闭的一方称为remote end 本地IP、本地端口、远端IP、远端端口这一“四元组”称为quadruplet，也称为socket 1、TIME_WA
jquery ajax 序列化表单 coder_xpf Jquery ajax 序列化
checkbox 如果不设定值，默认选中值为on；设定值之后，选中则为设定的值 <input type="checkbox" name="favor" id="favor" checked="checked"/> $("#favor&quo
Apache集群乱码和最高并发控制 cuisuqiang apache tomcat 并发集群乱码
都知道如果使用Http访问，那么在Connector中增加URIEncoding即可，其实使用AJP时也一样，增加useBodyEncodingForURI和URIEncoding即可。最大连接数也是一样的，增加maxThreads属性即可，如下，配置如下： <Connector maxThreads="300" port="8019" prot
websocket dalan_123 websocket
一、低延迟的客户端-服务器和服务器-客户端的连接很多时候所谓的http的请求、响应的模式，都是客户端加载一个网页，直到用户在进行下一次点击的时候，什么都不会发生。并且所有的http的通信都是客户端控制的，这时候就需要用户的互动或定期轮训的，以便从服务器端加载新的数据。通常采用的技术比如推送和comet（使用http长连接、无需安装浏览器安装插件的两种方式：基于ajax的长
菜鸟分析网络执法官 dcj3sjt126com 网络
最近在论坛上看到很多贴子在讨论网络执法官的问题。菜鸟我正好知道这回事情.人道"人之患好为人师" 手里忍不住,就写点东西吧. 我也很忙.又没有MM,又没有MONEY....晕倒有点跑题. OK,闲话少说,切如正题. 要了解网络执法官的原理. 就要先了解局域网的通信的原理. 前面我们看到了.在以太网上传输的都是具有以太网头的数据包.
Android相对布局属性全集 dcj3sjt126com android
RelativeLayout布局android:layout_marginTop="25dip" //顶部距离android:gravity="left" //空间布局位置android:layout_marginLeft="15dip //距离左边距 // 相对于给定ID控件android:layout_above 将该控件的底部置于给定ID的
Tomcat内存设置详解 eksliang jvm tomcat tomcat内存设置
Java内存溢出详解一、常见的Java内存溢出有以下三种： 1. java.lang.OutOfMemoryError: Java heap space ----JVM Heap（堆）溢出JVM在启动的时候会自动设置JVM Heap的值，其初始空间(即-Xms)是物理内存的1/64，最大空间(-Xmx)不可超过物理内存。可以利用JVM提
Java6 JVM参数选项 greatwqs java HotSpot jvm jvm参数 JVM Options
Java 6 JVM参数选项大全（中文版）作者：Ken Wu Email: [email protected] 转载本文档请注明原文链接 http://kenwublog.com/docs/java6-jvm-options-chinese-edition.htm！本文是基于最新的SUN官方文档Java SE 6 Hotspot VM Opt
weblogic创建JMC i5land weblogic jms
进入 weblogic控制太 1.创建持久化存储 --Services--Persistant Stores--new--Create FileStores--name随便起--target默认--Directory写入在本机建立的文件夹的路径--ok 2.创建JMS服务器 --Services--Messaging--JMS Servers--new--name随便起--Pers
基于 DHT 网络的磁力链接和BT种子的搜索引擎架构 justjavac DHT
上周开发了一个磁力链接和 BT 种子的搜索引擎 {Magnet & Torrent}，本文简单介绍一下主要的系统功能和用到的技术。系统包括几个独立的部分：使用 Python 的 Scrapy 框架开发的网络爬虫，用来爬取磁力链接和种子；使用 PHP CI 框架开发的简易网站；搜索引擎目前直接使用的 MySQL，将来可以考虑使
sql添加、删除表中的列 macroli sql
添加没有默认值：alter table Test add BazaarType char(1) 有默认值的添加列：alter table Test add BazaarType char(1) default(0) 删除没有默认值的列：alter table Test drop COLUMN BazaarType 删除有默认值的列：先删除约束（默认值）alter table Test DRO
PHP中二维数组的排序方法 abc123456789cba 排序二维数组 PHP
<?php/*** @package BugFree* @version $Id: FunctionsMain.inc.php,v 1.32 2005/09/24 11:38:37 wwccss Exp $*** Sort an two-dimension array by some level
hive优化之------控制hive任务中的map数和reduce数 superlxw1234 hive hive优化
一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2.
Spring Boot 1.2.4 发布 wiselyman spring boot
Spring Boot 1.2.4已于6.4日发布，repo.spring.io and Maven Central可以下载(推荐使用maven或者gradle构建下载)。这是一个维护版本，包含了一些修复small number of fixes,建议所有的用户升级。 Spring Boot 1.3的第一个里程碑版本将在几天后发布，包含许多

数据汇总与统计(pandas库)知识点归纳总结及练习题

统计的基本概念

常用统计量含义

pandas数据结构–Series 、DataFrame

Series------一维数据

Series数据选取

Series数据修改

索引修改

Series数据添加–最好利用append()函数拼接

Series数据删除

思考与练习1

DataFrame—二维数据

DataFrame数据选取

DataFrame数据修改

DataFrame索引修改

DataFrame数据添加

DataFrame数据删除

课后练习1

数据文件的读写—基于pandas库

读取CSV文件

文件内数据读取

特殊csv文件读取

保存CSV文件

读取文本文件

读取Excel文件

读取xml文件（特殊）

思考与练习2

数据文件的清洗

数据滤除

缺失数据列监测

数据去重

数据填充

思考与练习3

数据规整化

数据合并

行数据追加

列数据链接

方式1

方式2

方式3

数据排序及排名

排序

数据打乱

排名

课后练习2

统计分析

通用函数与运算

DataFrame、Series、标量之间的算术运算

DataFrame元素级的函数运算–import numpy as np

pandas常用统计函数

分组（分组并统计个数）

分组方式1：

numpy的聚合函数名

分组方式2：

分组方式3：

分组方式4：

分组方式5：

分组方式6（补充）：

相关性分析 DataFrame相关性分析函数:DataFrame.corr()

相关性分析方式1：

相关性分析方式2：

统计案例分析

课后作业3

你可能感兴趣的:(数据科学,python,数据分析,numpy,pycharm,jupyter)