jason_ql

Python数据处理手册

关键词： Python

Python数据处理手册
1引言
2Numpy基础数组和矢量计算
- 1 一种多维数组对象ndarray
- 2 运算函数
- 3 利用数组进行数据处理
- 4 数组的文件输入输出
- 5 线性代数
- 6 随机数生成
pandas
- 1 Series
- 2 DataFrame
- 3 索引对象
- 4 重新索引
- 5 丢弃指定轴上的项
- 6 索引选取和过滤
- 7 算术运算和数据对齐
- 8 DataFrame和Series之间的运算
- 9 函数应用和映射
- 10 排序和排名
- 11 带有重复值的轴索引
- 12 汇总和计算描述统计
- 13 相关系数与协方差
- 14 唯一值值计数以及成员资格
- 15 处理缺失数据

1、引言

numpy和pandas的常用函数及方法。

2、Numpy基础：数组和矢量计算

2.1 一种多维数组对象ndarray

2.2 运算函数

通用函数（即ufunc）是一种对ndarray中的数据执行元素级运算的函数。

#数组开方运算函数
>>>arr = np.arange(4)
>>>arr
array([0, 1, 2, 3])
>>>np.sqrt(arr)
array([ 0.        ,  1.        ,  1.41421356,  1.73205081])

np.modf() #分别显示浮点整数的小数部分和整数部分

>>>np.modf(np.sqrt(arr))
(array([ 0.        ,  0.        ,  0.41421356,  0.73205081]),
 array([ 0.,  1.,  1.,  1.]))

一元ufunc
np.abs()、np.fabs() #计算整数、浮点数或复数的绝对值。对于非复数值，可以使用更快的fabs
np.sqrt() #计算各元素的平方根，相当于arr ** 0.5
np.square() #计算各元素的平方。相当于arr ** 2
np.exp() #计算各元素的指数
np.log()、np.log10()、np.log2()、np.log1p() #分别为自然对数（e）、底数为10、底数为2、log(1+x)
np.sign() #计算各元素的正负号：1（正数）、0（零）、-1（负数）
np.ceil() #计算各元素的ceiling值，即大于等于该值的最小整数
np.floor() #计算各元素的floor值，即小于等于该值的最大整数
np.rint() #将各元素值四舍五入到最接近的整数，保留dtype
np.modf() #将数组的小数和整数部分以两个独立数组的形式返回
np.isnan() #返回一个表示“哪些值是NaN（这不是一个数字）”的布尔数组
np.isfinite()、np.isinf() #分布返回一个表示“哪些元素是有穷的（非inf，非NaN）”或“哪些元素是无穷的”的布尔型数组
np.cos()、np.cosh()、np.sin()、np.sinh() #普通型和双曲型三角函数
np.tan()、np.tanh()、np.arcos()、np.arccosh()、np.arcsin()、np.arcsinh()、np.arctan()、np.arctanh() #反三角函数
np.logical_not() #计算各元素not x 的真值。相当于-arr
二元ufunc
np.add(arr1,arr2) #将数组中对应的元素相加
np.subtract() #从第一个数组中减去第二个数组中的元素
np.multiply() #数组对应元素相乘
np.divide()、np.floor_divide() #除法或向下圆整除法（丢弃余数）
np.power() #对第一个数组中的元素A，根据第二个数组中的相应元素B,计算 AB
np.maximum()、np.fmax() #元素级的最大值计算。fmax将忽略NaN
np.minimum()、np.fmin() #元素级的最小值计算。fmin将忽略NaN
np.mod() #元素级的求模运算（除法的余数）
np.copysign() #将第二个数组中的值的符合复制给第一个数组中的值
np.greater()、np.greater_equal()、np.less()、np.less_equal()、np.logical_and()、np.logical_or()、np.logical_xor() #执行元素级的比较运算，最终产生布尔型数组，相当于>、>=、<、<=、==、!=

2.3 利用数组进行数据处理

np.where() #是三元表达式x if condition else y的矢量化版本。

#当c为True，取x；当c为False，取y
>>>x = np.array([1.1,1.2,1.3, 1.4, 1.5])
>>>y = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
>>>c = np.array([True, False, True, True, False])
>>>result = np.where(c, x, y)
array([1.1, 2.2, 1.3, 1.4, 2.5])

where通常用于根据另一个数组而产生一个新的数组。
传递给where的数组大小可以不相等，甚至可以是标量值。

数学和统计方法
获取正态分布的函数：np.random.randn(行数，列数)，参数只有一个时，生成的是一维数组。
基本数组统计方法

>>>arr = np.arange(9).reshape((3,3))
>>>arr
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

arr.sum() #对数组中全部或某轴向的元素求和。零长度的数组的sum为0
arr.mean() #算术平均数。零长度的数组的mean为NaN
arr.std()、arr.var() #分别为标准差和方差，自由度可调（默认为n）
arr.min()、arr.max() #最大值和最小值
arr.argmin()、arr.argmax() #分别为最大和最小元素的索引
arr.cumsum() #所有元素的累积和
arr.cumprod() #所有元素的累积积

在上面这些方法中，布尔值会被强制转换为1（True）和0（False）

>>>(arr > 0).sum() #正数的数量
>>>8

arr.any()、arr.all() #它们对布尔数组非常有用。any用于测试数组中是否存在一个或多个True，而all则检查数组中所有值是否都是True

>>>arr = np.array([False, False, True, False])
>>>arr.any()
True
>>>arr.all()
False

排序
arr.sort() #同Python内置的列表类型一样
唯一化及其他的集合逻辑
np.unique(数组名) #用于找出数组中的唯一值并返回已排序的结果

>>>names = np.array(['Bob','Joe', 'Will', 'Bob','Joe', 'Will', 'Joe])
>>>np.unique(names)
array(['Bob','Joe','Will'])

#该方法和set有些类似

数组的集合运算
np.unique(x) #计算x中的唯一元素，并返回有序结果
np.intersect1d(x,y) #计算x和y中的公共元素，并返回有序结果
np.union1d(x,y) #计算x和y的并集，并返回有序结果
np.in1d(x,y) #得到一个表示“x的元素是否包含于y”的布尔型数组
np.setdiff1d(x,y) #集合的差，即元素在x中且不在y中
np.setxor1d(x,y) #集合的对称差，即存在于一个数组中，但不同时存在于两个数组中的元素

2.4 数组的文件输入输出

Numpy能够读写磁盘上的文本数据、二进制数据。
将数组以二进制格式保存到磁盘。
np.save()、np.load()是读写磁盘数组数据的两个主要函数。默认情况下，数组以未压缩的原始二进制格式保存在扩展名为.npy的文件中。

>>>arr = np.arange(10)
>>>np.save('an_array', arr)  #将arr保存到磁盘。如果文件路径末尾没有扩展名.npy,则该扩展名会被自动加上
>>>np.load('an_array.npy')  #读取磁盘数组

np.savez() #可以将多个数组保存到一个压缩文件中，将数组以关键字参数的形式传入即可。

>>>np.savez('array.npz', a = arr, b = arr)
>>>m = np.load('array.npz')
>>>m['a']
array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

存取文本文件
从文件中加载文本是一个非常标准的任务。python中的文件读写函数格式很容易将新手搞晕，所以主要介绍pandas中的read_csv和read_table。有时也需要np.loadtxt或np.genfromtxt将数据加载到普通的NumPy数组中。

>>>arr = np.loadtxt('array.txt', delimiter = ',')

#np.savetxt() 执行的是相反的操作：将数组写到以某种分隔符隔开的文本文件中。genfromtxt跟loadtxt差不多，只不过它面向的是结构化数组和缺失数据处理。

2.5 线性代数

NumPy中的矩阵乘法函数：np.dot(x,y)

>>>a = np.random.randn(3,3)
>>>b = np.random.randn(3,4)
>>>a
array([[ 0.79424789,  2.13225629],
       [ 0.56193264,  0.28040479]])
>>>b
array([[ 2.77264694, -0.76840806, -0.92406786],
       [ 0.99918608,  0.33742714,  1.04551225]])
>>>np.dot(a,b)
array([[ 4.33268977,  0.10917466,  1.49536114],
       [ 1.83821738, -0.33717739, -0.22609725]])

常用的numpy.linalg函数
np.diag(arr) #以一维数组的形式返回方阵的对角线（或非对角线）元素，或将一维数组转换为方阵（非对角线元素为0）
np.dot(x,y) #矩阵乘法
np.trace() #计算对角线元素的和
np.linalg.det() #计算矩阵行列式
np.linalg.eig() #计算方阵的本特征和本特征向量
np.linalg.inv() #计算方阵的逆
np.linalg.pinv() #计算方阵的Moore-Penrose伪逆
np.linalg.qr() #计算QR分解
np.linalg.svd() #计算奇异值分解
np.linalg.solve(A,b) #解线性方程组Ax=b，其中A为一个方阵
np.linalg.lstsq() #计算Ax=b的最小二乘解

2.6 随机数生成

numpy.random模块对python内置的random进行了补充，增加了一些用于高效生成多种概率分布的样本值的函数。

>>>a = np.random.normal((size=(3,3)) 
#用size=(行数，列数),生成数组，不用size，仅生成一个值，其他函数也是如此
>>>a
array([[-0.96685449,  0.08163984, -0.22994784],
       [-0.64561687,  0.77092965,  0.69356818],
       [ 0.76825463, -1.68469753,  2.07854679]])

numpy.random函数
np.random.seed() #确定随机数生成器的种子
np.random.permutation() #返回一个序列的随机排列或返回一个随机排列的范围
np.random.shuffle() #对一个序列就地随机排列
np.random.rand() #产生均匀分布的样本值
np.random.randint() #从给定的上下限范围内随机选取整数
np.random.randn() #产生正态分布（平均值为0，标准差为1）的样本值，类似于Matlab接口
np.random.binomial() #产生二项分布的样本值
np.random.normal() #产生正态（高斯）分布的样本值
np.random.beta() #产生Beta分布的样本值
np.random.chisquare() #产生卡方分布的样本值
np.random.gamma() #产生Gamma分布的样本值
np.random.uniform() #产生在（0,1）中均匀分布的样本值

3 pandas

pandas是基于NumPy构建的，让以NumPy为中心的应用变得更加简单。
引入pandas方式：

from pandas import Series, DataFrame

import pandas as pd

3.1 Series

Series是一种类似于一维数组的对象，它由一组数据（各种NumPy数据类型）以及一组与之相关的数据标签（即索引）组成。
Series：索引在左，值在右边
仅由一组数据即可产生最简单的Series：

>>>obj = Series([4,7,-5,3])
>>>obj
0  4
1  7
2  -5
3  3
#通过values、index指定属性获取其数组表示形式和索引对象
>>>obj.values
array([4,7,-5,3])
>>>obj.index
Int64Index([0,1,2,3])

>>>obj2 = Series([4,5,6,7],index = ['d','b','a','c'])  #添加索引值, 索引可以通过赋值的方式就地修改obj2.index={}
>>>obj2
d    4
b    5
a    6
c    7
dtype: int64
>>>obj2['a']  #索引
6
>>>obj2[['a','b']]  #索引
a  6
b  5

Series同样可以使用标量乘法、数学运算函数
如果数据别存放在一个python字典中，也可以直接通过这个字典来创建Series。

>>>dict = {'a':2,'b':3,'c':4}
>>>obj3 = Series(dict)
>>>obj3
a  2
b  3
c  4

如果只传入一个字典，则结果Series中的索引就是原字典的键。

pd.isnull()、pd.notnull()可用于检测缺失数据

>>>pd.isnull(obj3) #也可以用obj3.isnull()
a  False
b  False
c  False
>>>pd.notnull(obj3)
a  True
b  True
c  True

3.2 DataFrame

DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）

>>>data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada'],'year':[2000,2001,2002,2001,2002],'pop':[1.5,1.7,3.6,2.4,2.9]}  #字典
>>>frame = DataFrame(data)
>>>frame
   pop   state  year
0  1.5    Ohio  2000
1  1.7    Ohio  2001
2  3.6    Ohio  2002
3  2.4  Nevada  2001
4  2.9  Nevada  2002
#结果DataFrame会自动加上索引（跟Series一样），且全部列会被有序排列

#如果指定了列序列，则按指定的列排列(如果传入的列找不到，就会产生NaN值)
>>>DataFrame(data, columns = ['year','state','pop']
   year   state  pop
0  2000    Ohio  1.5
1  2001    Ohio  1.7
2  2002    Ohio  3.6
3  2001  Nevada  2.4
4  2002  Nevada  2.9

#索引(DataFrame添加指定索引的方式同Series相同，参考3.1)
>>>frame.year
0    2000
1    2001
2    2002
3    2001
4    2002
Name: year, dtype: int64

#按行索引frame.ix[索引名或行列]
>>>frame.ix[2]
pop       3.6
state    Ohio
year     2002
Name: 2, dtype: object

#如果设置了DataFrame的index和columns的name属性，则这些信息也会被显示出来
>>>frame.index.name = 'xuhao';frame.columns.name = 'state'

state  pop   state  year
xuhao                   
0      1.5    Ohio  2000
1      1.7    Ohio  2001
2      3.6    Ohio  2002
3      2.4  Nevada  2001
4      2.9  Nevada  2002

列可以通过赋值的方式进行修改。
将列表或数组赋值给某个列时，其长度必须跟DataFrame的长度相匹配。如果赋值的是一个Series，就会精确匹配DataFrame的索引，所有的空位都讲被填上缺失值。

DataFrame构造器的数据
二维ndarray #数据矩阵，还可以传入行标和列标
由数组、列标或元组组成的字典 #每个序列会变成DataFrame的一列。所有序列的长度必须相同
NumPy的结构化/记录数组 #类似于“由数组组成的字典”
由Series组成的字典 #每个Series会成为一列。如果没有显式指定索引，则各Series的索引会被合并成结果的行索引
由字典组成的字典 #各内层字典会成为一列。键会被合并成结果的行索引，跟“由Series组成的字典”的情况一样
字典或Series的列表 #各项将会成为DataFrame的一行。字典键或Series索引的并集将会成为DataFrame的列标
由列表或元组组成的列表 #类似于“二维ndarray”
另一个DataFrame #该DataFrame的索引将会被沿用，除非显式指定了其他索引
NumPy的MaskedArray #类似于“二维ndarray”的情况，只是掩码值在结果DataFrame会变成NaN缺失值

3.3 索引对象

index()

>>>obj = Series(range(3), index = ['a','b','c'])
>>>index = obj.index
Index([u'a', u'b', u'c'], dtype='object')

pandas中主要的index对象
index() #最泛化的index对象，将轴标签标示为一个由Python对象组成的NumPy数组
int64index() #针对整数的特殊index
Multiindex() #“层次化”索引对象，标示单个轴上的多层索引。可以看做由元组组成的数组
datetimeindex() #存储纳秒级时间戳（用NumPy的datetime64类型标示）
periodindex() #针对period数据（时间间隔）的特殊index
index的方法和属性
append() #连接另一个index对象，产生一个新的index
diff() #计算差集，并得到一个index
intersection() #计算交集
union() #计算并集
isin() #计算一个指示各值是否都包含在参数集合中的布尔型数组
delete() #删除索引i处的元素，并得到新的index
drop() #删除传入的值，并得到新的index
insert() #将元素插入到索引i处，并得到新的index
is_moontonic() #当各元素均大于等于前一个元素时，返回True
is_quique() #当index没有重复值时，返回True
unique() #计算index中唯一值的数组

3.4 重新索引

>>>obj = Series(range(3), index = ['a','b','c'])
>>>obj2 = obj.reindex(['a','b','c','d'])  #调用该Series的reindex将会根据新新索引进行重排，如果某个索引值当前不存在，就引入缺失值
>>>obj2
a    0.0
b    1.0
c    2.0
d    NaN
dtype: float64

>>>obj3 = Series(['blue','purple','yellow'],index=[0,2,4])
>>>obj3.reindex(range(6),method = 'ffill')   #对于时间序列这样的有序数据，重新索引时可能需要做一些插值处理。method选项即可达到此目的。
0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

reindex的（插值）method选项
ffill或pad #前向填充（或搬运）值
bfill或backfill #后向填充（或搬运）值

>>>frame = DataFrame(np.arange(9).reshape((3,3)),index = ['a','c','d'], columns = ['Oo','Tt','Cc'])
>>>frame

   Oo  Tt  Cc
a   0   1   2
c   3   4   5
d   6   7   8
>>>frame2 = frame.reindex(['a','b','c','d'])   #对于DataFrame，reindex可以修改（行）索引、列，或两个都修改。如果仅传入一个序列，则会重新索引行

    Oo   Tt   Cc
a  0.0  1.0  2.0
b  NaN  NaN  NaN
c  3.0  4.0  5.0
d  6.0  7.0  8.0

#使用columns关键字即可重新索引列
>>>states = ['Tt','Uu','Cc']
>>>frame.reindex(columns = states)

   Tt  Uu  Cc
a   1 NaN   2
c   4 NaN   5
d   7 NaN   8

#同时对行和列进行重新索引，而插值则只能按行应用（即轴0）
>>>frame.reindex(index=['a','b','c','d'],method='ffill',columns=states)

   Tt  Uu  Cc
a   1 NaN   2
b   1 NaN   2
c   4 NaN   5
d   7 NaN   8

#利用ix的标签索引功能，重新索引任务可以变得更简洁
>>>frame.ix[['a','b','c','d'],states]

    Tt  Uu   Cc
a  1.0 NaN  2.0
b  NaN NaN  NaN
c  4.0 NaN  5.0
d  7.0 NaN  8.0

reindex函数的参数
index 用作索引的新序列。既可以是index序列，也可以是其他序列型的Python数据结构。index会被完全使用，就像没有任何复制一样
method #插值（填充）方式
fill_value #在重新索引的过程中，需要引入缺失值时使用的替代值
limit #前向或后向填充时最大填充量
level #在Multiindex的指定级别上匹配简单索引，否则选取其子集
copy #默认为True，无论如何都复制；如果为False，则新旧相等就不复制

3.5 丢弃指定轴上的项

丢弃某条轴上的一个或多个项很简单，只要有一个索引数组或列表即可。由于需要执行一些数据整理和集合逻辑，所以drop方法返回的是一个在指定轴上删除了指定值的新对象

>>>obj = Series(np.arange(5),index = ['a','b','c','d','e'])
>>>obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

>>>new_obj = obj.drop('c')

a    0
b    1
d    3
e    4
dtype: int32

3.6 索引、选取和过滤

>>>obj = Series(np.arange(5),index = ['a','b','c','d','e'])
>>>obj

a    0
b    1
c    2
d    3
e    4
dtype: int32

>>>obj['b]
1.0
>>>obj['a','b']
a  0
b  1
>>>obj[2:4]  #切片
c  2
d  3
>>>obj[obj<2]
a  0
b  1
>>>obj['b':'c']
b  1
c  2

>>>obj < 4  #布尔型索引

a     True
b     True
c     True
d     True
e    False
dtype: bool

#字段ix索引
>>>frame
   Oo  Tt  Cc
a   0   1   2
c   3   4   5
d   6   7   8
>>>frame.ix[['a','c'],['Cc','Oo']]
   Cc  Oo
a   2   0
c   5   3
>>>frame.ix[['a','c'],[1,2]]
   Tt  Cc
a   1   2
c   4   5

DataFrame的索引选项
obj[val] #选取DataFrame的单个或一组列。在一些特殊情况下会比较便利：布尔型数组（过滤行）、切片（行切片）、布尔型DataFrame（根据条件设置值）
obj.ix[val] #选取DataFrame的单个行或一组行
obj.ix[:,val] #选取当个列或列子集
obj.ix[val1,val2] #同时选取行和列
reindex() #将一个或多个轴匹配到新索引
xs #根据标签选取单行或单列，并返回一个Series
icol、irow #根据整数位置选取单列或单行，并返回一个Series
get_value、set_value #根据行标签和列标签选取单个值

3.7 算术运算和数据对齐

对不同的索引的对象进行算术运算，在相加时，如果存在不同的索引对，则结果的索引就是该索引对的并集。

>>>s1 = Series(np.arange(4),index = ['a','c','d','e'])
>>>s2 = Series(np.arange(5),index = ['a','c','e','f','g'])

>>>s1
a    0
c    1
d    2
e    3
dtype: int32

>>>s2
a    0
c    1
e    2
f    3
g    4
dtype: int32

>>>s1 + s2   #自动的数据对齐操作在不重叠的索引处引入了NaN值
a    0.0
c    2.0
d    NaN
e    5.0
f    NaN
g    NaN
dtype: float64

fill_value #在对不同索引的对象进行算术运算时，数据操作不重叠处填充一个特殊值。

>>>s1.add(s2,fill_value=0)
a    0.0
c    2.0
d    2.0
e    5.0
f    3.0
g    4.0
dtype: float64

>>>s1.reindex(index = s2.index, fill_value = 0)  #在对Series和DataFrame重新索引时，也可以指定一个填充值

a    0
c    1
e    3
f    0
g    0
dtype: int32

算术方法
s1.add(s2) #用于加法的方法
s1.sub(s2) #用于减法的方法
s1.div(s2) #用于除法的方法
s1.mul(s2) #用于乘法的方法

3.8 DataFrame和Series之间的运算

#二维数组与某行之差
>>>arr = np.arange(12.).reshape(3,4))
>>>arr
array([[  0.,   1.,   2.,   3.],
       [  4.,   5.,   6.,   7.],
       [  8.,   9.,  10.,  11.]])

>>>arr[0]
array([ 0.,  1.,  2.,  3.])

>>>arr  - arr[0]   #这就叫做广播（broadcasting）
array([[ 0.,  0.,  0.,  0.],
       [ 4.,  4.,  4.,  4.],
       [ 8.,  8.,  8.,  8.]])

#DataFrame和Series之间是算术运算将Series索引值默认匹配到DataFrame的列，然后沿着行一直向下广播
>>>frame = DataFrame(np.arange(12.).reshape((4,3)),columns = list('bde'), index = ['Uu','Oo','Tt','Or'])
>>>series = frame.ix[0]
>>>frame
     b     d     e
Uu  0.0   1.0   2.0
Oo  3.0   4.0   5.0
Tt  6.0   7.0   8.0
Or  9.0  10.0  11.0

>>>series
b    0.0
d    1.0
e    2.0
Name: Uu, dtype: float64

>>>frame - series  #如果索引找不到，则为NaN
      b    d    e
Uu  0.0  0.0  0.0
Oo  3.0  3.0  3.0
Tt  6.0  6.0  6.0
Or  9.0  9.0  9.0

#行在列上广播(即与每列做运算)，则需用算术运算方法
>>>series2 = frame['d']
>>>series2
Uu    0.0
Oo    3.0
Tt    6.0
Or    9.0
Name: b, dtype: float64

>>>frame.sub(series2, axis=0)
      b    d    e
Uu  0.0  1.0  2.0
Oo  0.0  1.0  2.0
Tt  0.0  1.0  2.0
Or  0.0  1.0  2.0

3.9 函数应用和映射

NumPy的ufunc（元素级数组方法）也可用于操作pandas对象。

>>>frame = DataFrame(np.arange(12.).reshape((4,3)),columns = list('bde'), index = ['Uu','Oo','Tt','Or'])
>>>frame
     b     d     e
Uu  0.0   1.0   2.0
Oo  3.0   4.0   5.0
Tt  6.0   7.0   8.0
Or  9.0  10.0  11.0

>>>np.abs(frame) #求绝对值
      b     d     e
Uu  0.0   1.0   2.0
Oo  3.0   4.0   5.0
Tt  6.0   7.0   8.0
Or  9.0  10.0  11.0

>>>f = lambda x: x.max() - x.min()
>>>frame.appply(f)  #将函数应用到各列所形成的一维数组，apply方法实现
b    9.0
d    9.0
e    9.0
dtype: float64

>>>frame.apply(f,axis=1) #应用到行
Uu    2.0
Oo    2.0
Tt    2.0
Or    2.0
dtype: float64

3.10 排序和排名

obj.sort_index()方法将返回一个已排序的新对象。

>>>obj = Series(np.arange(5),index = ['e','c','a','d','b'])
>>>obj
e    0
c    1
a    2
d    3
b    4
dtype: int32

>>>obj2 = obj.sort_index()
>>>obj2
a    2
b    4
c    1
d    3
e    0
dtype: int32

>>>obj2.sort_index(ascending = False) #降序
e    0
d    3
c    1
b    4
a    2
dtype: int32

>>>obj2.order()  #按值排序。排序时，任何缺失值默认都会被会放到Series的末尾。
e    0
c    1
a    2
d    3
b    4
dtype: int32

在DataFrame上，将一个或多个列的名字传递给by，即可对相应的列排序


>>>frame = DataFrame(np.arange(12.).reshape((4,3)),columns = list('bde'), index = ['Uu','Oo','Tt','Or'])
>>>frame
     b     d     e
Uu  0.0   1.0   2.0
Oo  3.0   4.0   5.0
Tt  6.0   7.0   8.0
Or  9.0  10.0  11.0

>>>frame.sort_index(by = 'b',ascending=False)  #按'b'列降序
      b     d     e
Or  9.0  10.0  11.0
Tt  6.0   7.0   8.0
Oo  3.0   4.0   5.0
Uu  0.0   1.0   2.0

排名
排名（ranking）跟排序关系密切，它会增设一个排名值（从1开始，一直到数组中有效数据的数量）。它跟numpy.argsort产生的间接排序索引差不多，只不过它可以根据某种规则破坏平级关系。

>>>obj2 = Series([7,-5,7,4,2,0,4])
>>>obj2.rank()  #rank()是通过“为各组分配一个平均排名”的方式破坏平级关系的
0    6.5
1    1.0
2    6.5
3    4.5
4    3.0
5    2.0
6    4.5
dtype: float64

>>>obj2.rank(method = 'first')  #在原数据中出现的顺序给出排名
0    6.0
1    1.0
2    7.0
3    4.0
4    3.0
5    2.0
6    5.0
dtype: float64

排名时用于破坏平级关系的method选项
method = ‘average’ #默认：在相等分组中，为各个值分配平均排名
method = ‘min’ #使用整个分组的最小排名
method = ‘max’ #使用整个分组的最大排名
method = ‘first’ #按值在原始数据中的出现顺序分配排名

3.11 带有重复值的轴索引

索引值对应多个值

>>>obj = Series(np.arange(5),index = ['a','a','b','b','c'])
a    0
a    1
b    2
b    3
c    4
dtype: int32

>>>obj.index.is_unique  #查询索引是否唯一
False

>>>obj['a']   #如果某个索引对应多个值，则返回一个Series，对应单个的，则返回一个标量值
a    0
a    1
>>>obj['c']
4
dtype: int32

#对DataFrame的行进行索引类似Series

3.12 汇总和计算描述统计

>>>frame = DataFrame([[1,np.nan],[3,-2],[np.nan,np.nan],[5,1]], index = ['a','b','c','d'], columns = ['one','two'])
>>>frame
   one  two
a  1.0  NaN
b  3.0 -2.0
c  NaN  NaN
d  5.0  1.0
>>>frame.sum()
one    9.0
two   -1.0
dtype: float64
>>>frame.mean(axis=1,skipna=False)   #axis=1是按列，skipna默认为True，排除缺失值。skipan=False表示不排除缺失值
a    NaN
b    0.5
c    NaN
d    3.0
dtype: float64

约简方法的选项
axis #默认=0按行，=1为按列
skipna #排除缺失值，默认为True
level #如果轴是层次化索引的（即multilindex），则根据level分组约简

>>>frame.idxmax()  #返回最大值的索引
one    d
two    d
dtype: object

描述和汇总统计
frame.count() #非NA值的数量
frame.describe() #针对Series或各DataFrame列计算汇总统计
frame.min()、frame.max() #计算最小值和最大值
frame.argmin()、frame.argmax() #计算能够获取到最小值和最大值的索引位置（整数）
frame.idxmin()、frame.idxmax() #计算最大值和最小值的索引值
frame.quantile() #计算样本的分位数（0到1）
frame.sum() #值的总和
frame.mean() #值的平均数
frame.median() #值的算术中位数（50%）
frame.mad() #根据平均值计算平均绝对离差
frame.var() #样本值的方差
frame.std() #样本值的标准差
frame.skew() #样本值的偏度（三阶矩）
frame.kurt() #样本值的峰度（四阶矩）
frame.cumsum() #样本值的累积和
frame.cummin()、frame.cummax() #样本值的累积最大值和累积最小值
frame.cumprod() #样本值的累积积
frame.diff() #计算一阶差分（对时间序列很有用）
frame.pct_change() #计算百分数变化

3.13 相关系数与协方差

frame.corr() #相关系数
frame.cov() #协方差矩阵

3.14 唯一值、值计数以及成员资格

>>>obj2 = Series(['c','a','d','a','a','b','b','c','c'])
>>>uni = obj2.unique()
>>>uni
array(['c', 'a', 'd', 'b'], dtype=object)

>>>obj2.value_counts()  #计算各个值出现的频率，默认降序排列
c    3
a    3
b    2
d    1
dtype: int64

唯一值、值计数、成员资格方法
obj2.isin() #计算一个表示“Series各值是否包含于传入的值序列中”的布尔型数组
obj2.unique() #计算Series中的唯一值数组，按发现的书序返回
obj2.value_counts() #返回一个Series，其索引为唯一值，其值为频率，按计数值降序排列

3.15 处理缺失数据

>>>obj2 = Series(['c','a','d','a','a','b','b','c','c'])
>>>obj2.isnull()
0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
dtype: bool

NA处理方法
obj2.dropna() #根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍度（默认丢弃任何含有缺失值的行）
obj2.fillna() #用指定值或插值方法（如ffill或bfill）填充缺失数据
obj2.isnull() #返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值NA，该对象的类型与源类型一样
obj2.notnull() #isnull的否定式
滤除缺失数据

>>>frame = DataFrame([[1,np.nan],[3,-2],[np.nan,np.nan],[5,1]], index = ['a','b','c','d'], columns = ['one','two'])
>>>frame
   one  two
a  1.0  NaN
b  3.0 -2.0
c  NaN  NaN
d  5.0  1.0
>>>frame2 = frame.dropna()  #默认丢弃全部缺失值的行
   one  two
b  3.0 -2.0
d  5.0  1.0

>>>frame3 = frame.dropna(how = 'all')   #丢弃全为NA的行，参数添加axis=1可按列丢弃
   one  two
a  1.0  NaN
b  3.0 -2.0
d  5.0  1.0

填充缺失数据

>>>frame = DataFrame([[1,np.nan],[3,-2],[np.nan,np.nan],[5,1]], index = ['a','b','c','d'], columns = ['one','two'])
>>>frame
   one  two
a  1.0  NaN
b  3.0 -2.0
c  NaN  NaN
d  5.0  1.0
>>>frame.fillna(0)
   one  two
a  1.0  0.0
b  3.0 -2.0
c  0.0  0.0
d  5.0  1.0

参考文献《Python数据分析》

你可能感兴趣的:(Python,数据科学--算法)

系统学习Python——并发模型和异步编程：进程、线程和GIL
分类目录：《系统学习Python》总目录在文章《并发模型和异步编程：基础知识》我们简单介绍了Python中的进程、线程和协程。本文就着重介绍Python中的进程、线程和GIL的关系。Python解释器的每个实例都是一个进程。使用multiprocessing或concurrent.futures库可以启动额外的Python进程。Python的subprocess库用于启动运行外部程序（不管使用何种
C++11堆操作深度解析：std::is_heap与std::is_heap_until原理解析与实践
文章目录堆结构基础与函数接口堆的核心性质函数签名与核心接口std::is_heapstd::is_heap_until实现原理深度剖析std::is_heap的验证逻辑std::is_heap_until的定位策略算法优化细节代码实践与案例分析基础用法演示自定义比较器实现最小堆检查边缘情况处理性能分析与实际应用时间复杂度对比典型应用场景与手动实现的对比注意事项与最佳实践迭代器要求比较器设计C++标
Flask框架入门：快速搭建轻量级Python网页应用「已注销」 python-AI python基础网站网络 python flask 后端
转载：Flask框架入门：快速搭建轻量级Python网页应用1.Flask基础Flask是一个使用Python编写的轻量级Web应用框架。它的设计目标是让Web开发变得快速简单，同时保持应用的灵活性。Flask依赖于两个外部库：Werkzeug和Jinja2，Werkzeug作为WSGI工具包处理Web服务的底层细节，Jinja2作为模板引擎渲染模板。安装Flask非常简单，可以使用pip安装命令
Python Flask 框架入门：快速搭建 Web 应用的秘诀 Python编程之道 Python人工智能与大数据 Python编程之道 python flask 前端 ai
PythonFlask框架入门：快速搭建Web应用的秘诀关键词Flask、微框架、路由系统、Jinja2模板、请求处理、WSGI、Web开发摘要想快速用Python搭建一个灵活的Web应用？Flask作为“微框架”代表，凭借轻量、可扩展的特性，成为初学者和小型项目的首选。本文将从Flask的核心概念出发，结合生活化比喻、代码示例和实战案例，带你一步步掌握：如何用Flask搭建第一个Web应用？路由
冒泡、选择、插入排序：三大基础排序算法深度解析（C语言实现） xienda 算法排序算法数据结构
在算法学习道路上，排序算法是每位程序员必须掌握的基石。本文将深入解析冒泡排序、选择排序和插入排序这三种基础排序算法，通过C语言代码实现和对比分析，帮助读者彻底理解它们的差异与应用场景。算法原理与代码实现1.冒泡排序（BubbleSort）工作原理：通过重复比较相邻元素，将较大元素逐步"冒泡"到数组末尾。voidbubbleSort(intarr[],intn){ for(inti=0;iarr[
Leetcode 148. 排序链表
文章目录前引题目代码（首刷看题解）代码（8.9二刷部分看解析）代码（9.15三刷部分看解析）前引综合性比较强的一道题，要求时间复杂度必须O(logn)才能通过，最适合链表的排序算法就是归并。这里采用自顶向下的方法步骤：找到链表中点（双指针）对两个子链表排序(递归，直到只有一个结点，记得将子链表最后指向nullptr）归并（引入dummy结点）题目Leetcode148.排序链表代码（首刷看题解）c
python_虚拟环境阿_焦 python
第一、配置虚拟环境：virtualenv（1）pipvirtualenv>安装虚拟环境包（2）pipinstallvirtualenvwrapper-win>安装虚拟环境依赖包（3）c盘创建虚拟目录>C:\virtualenv>配置环境变量【了解一下】：（1）如何使用virtualenv创建虚拟环境a、cd到C:\virtualenv目录下：b、mkvirtualenvname>创建虚拟环境nam
全面触摸屏输入法设计与实现长野君
本文还有配套的精品资源，点击获取简介：触摸屏输入法是针对触摸设备优化的文字输入方案，包括虚拟键盘、手写、语音识别和手势等多种输入方式。本方案通过提供主程序文件、用户手册、界面截图、示例图、说明文本和音效文件，旨在为用户提供一个完整的、多样的文字输入体验。开发者通过持续优化算法和用户界面，使用户在无物理键盘环境下也能高效准确地进行文字输入。1.触摸屏输入法概述简介在现代信息技术飞速发展的今天，触摸屏
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）阿牛的药铺算法移植部署 fpga开发 verilog
FPGA小白到项目实战：Verilog+Vivado全流程通关指南（附光学类岗位技能映射）引言：为什么这个FPGA入门路线能帮你快速上岗？本文设计了一条**"Verilog语法→工具链操作→光学项目实战→岗位技能对标"的阶梯式学习路径。不同于泛泛而谈的FPGA教程，我们聚焦光学类产品开发**核心能力（时序接口设计、图像处理算法移植、高速接口应用），通过3个递进式项目（从LED闪烁到图像边缘检测），
PyTorch & TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）阿牛的药铺算法移植部署 pytorch tensorflow fpga开发
PyTorch&TensorFlow速成复习：从基础语法到模型部署实战（附FPGA移植衔接）引言：为什么算法移植工程师必须掌握框架基础？针对光学类产品算法FPGA移植岗位需求（如可见光/红外图像处理），深度学习框架是算法落地的"桥梁"——既要用PyTorch/TensorFlow验证算法可行性，又要将训练好的模型（如CNN、目标检测）转换为FPGA可部署的格式（ONNX、TFLite）。本文采用"
Python爱心光波
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
Python流星雨 Want595 python 开发语言
文章目录系列文章写在前面技术需求完整代码代码分析1.模块导入2.画布设置3.画笔设置4.颜色列表5.流星类(Star)6.流星对象创建7.主循环8.流星运动逻辑9.视觉效果10.总结写在后面系列文章序号直达链接表白系列1Python制作一个无法拒绝的表白界面2Python满屏飘字表白代码3Python无限弹窗满屏表白代码4Python李峋同款可写字版跳动的爱心5Python流星雨代码6Python
算法学习笔记：17.蒙特卡洛算法 ——从原理到实战，涵盖 LeetCode 与考研 408 例题
在计算机科学和数学领域，蒙特卡洛算法（MonteCarloAlgorithm）以其独特的随机抽样思想，成为解决复杂问题的有力工具。从圆周率的计算到金融风险评估，从物理模拟到人工智能，蒙特卡洛算法都发挥着不可替代的作用。本文将深入剖析蒙特卡洛算法的思想、解题思路，结合实际应用场景与Java代码实现，并融入考研408的相关考点，穿插图片辅助理解，帮助你全面掌握这一重要算法。蒙特卡洛算法的基本概念蒙特卡
Python之七彩花朵代码实现 PlutoZuo Python python 开发语言
Python之七彩花朵代码实现文章目录Python之七彩花朵代码实现下面是一个简单的使用Python的七彩花朵。这个示例只是一个简单的版本，没有很多高级功能，但它可以作为一个起点，你可以在此基础上添加更多功能。importturtleastuimportrandomasraimportmathtu.setup(1.0,1.0)t=tu.Pen()t.ht()colors=['red','skybl
算法学习笔记：15.二分查找 ——从原理到实战，涵盖 LeetCode 与考研 408 例题呆呆企鹅仔算法学习算法学习笔记考研二分查找
在计算机科学的查找算法中，二分查找以其高效性占据着重要地位。它利用数据的有序性，通过不断缩小查找范围，将原本需要线性时间的查找过程优化为对数时间，成为处理大规模有序数据查找问题的首选算法。二分查找的基本概念二分查找（BinarySearch），又称折半查找，是一种在有序数据集合中查找特定元素的高效算法。其核心原理是：通过不断将查找范围减半，快速定位目标元素。与线性查找逐个遍历元素不同，二分查找依赖
Python 脚本最佳实践2025版
前文可以直接把这篇文章喂给AI,可以放到AI角色设定里,也可以直接作为提示词.这样,你只管提需求,写脚本就让AI来.概述追求简洁和清晰：脚本应简单明了。使用函数(functions)、常量(constants)和适当的导入(import)实践来有逻辑地组织你的Python脚本。使用枚举(enumerations)和数据类(dataclasses)等数据结构高效管理脚本状态。通过命令行参数增强交互性
（Python基础篇）了解和使用分支结构 EternityArt 基础篇 python
目录一、引言二、Python分支结构的类型与语法（一）if语句（单分支）（二）if-else语句（双分支）（三）if-elif-else语句（多分支）三、分支结构的应用场景（一）提示用户输入用户名，然后再提示输入密码，如果用户名是“admin”并且密码是“88888”则提示正确，否则，如果用户名不是admin还提示用户用户名不存在,（二）提示用户输入用户名，然后再提示输入密码，如果用户名是“adm
（Python基础篇）循环结构 EternityArt 基础篇 python
一、什么是Python循环结构？循环结构是编程中重复执行代码块的机制。在Python中，循环允许你：1.迭代处理数据：遍历列表、字典、文件内容等。2.自动化重复任务：如批量处理数据、生成序列等。3.控制执行流程：根据条件决定是否继续或终止循环。二、为什么需要循环结构？假设你需要打印1到100的所有偶数：没有循环：需手动编写100行print()语句。print(0)print(2)print(4)
（Python基础篇）字典的操作 EternityArt 基础篇 python 开发语言
一、引言在Python编程中，字典（Dictionary）是一种极具灵活性的数据结构，它通过“键-值对”（key-valuepair）的形式存储数据，如同现实生活中的字典——通过“词语（键）”快速查找“释义（值）”。相较于列表和元组的有序索引访问，字典的优势在于基于键的快速查找，这使得它在处理需要频繁通过唯一标识获取数据的场景中极为高效。掌握字典的操作，能让我们更高效地组织和管理复杂数据，是Pyt
LeetCode算法题：电话号码的字母组合吱屋猪_ 算法 leetcode java
题目描述：给定一个仅包含数字2-9的字符串，返回所有它能表示的字母组合。答案可以按任意顺序返回。给出数字到字母的映射如下（与电话按键相同）。注意1不对应任何字母。2->"abc"3->"def"4->"ghi"5->"jkl"6->"mno"7->"pqrs"8->"tuv"9->"wxyz"例如，给定digits="23"，返回["ad","ae","af","bd","be","bf","cd
Python七彩花朵 Want595 python 开发语言
系列文章序号直达链接Tkinter1Python李峋同款可写字版跳动的爱心2Python跳动的双爱心3Python蓝色跳动的爱心4Python动漫烟花5Python粒子烟花Turtle1Python满屏飘字2Python蓝色流星雨3Python金色流星雨4Python漂浮爱心5Python爱心光波①6Python爱心光波②7Python满天繁星8Python五彩气球9Python白色飘雪10Pyt
霍夫变换（Hough Transform）算法原来详解和纯C++代码实现以及OpenCV中的使用示例点云SLAM 算法图形图像处理算法 opencv 图像处理与计算机视觉算法直线提取检测目标检测霍夫变换算法
霍夫变换（HoughTransform）是一种经典的图像处理与计算机视觉算法，广泛用于检测图像中的几何形状，例如直线、圆、椭圆等。其核心思想是将图像空间中的“点”映射到参数空间中的“曲线”，从而将形状检测问题转化为参数空间中的峰值检测问题。一、霍夫变换基本思想输入：边缘图像（如经过Canny边缘检测）输出：一组满足几何模型的形状（如直线、圆）关键思想：图像空间中的一个点→参数空间中的一个曲线参数空
用OpenCV标定相机内参应用示例（C++和Python）
下面是一个完整的使用OpenCV进行相机内参标定（CameraCalibration）的示例，包括C++和Python两个版本，基于棋盘格图案标定。一、目标：相机标定通过拍摄多张带有棋盘格图案的图像，估计相机的内参：相机矩阵（内参）K畸变系数distCoeffs可选外参（R,T）标定精度指标（如重投影误差）二、棋盘格参数设置（根据自己的棋盘格设置）：棋盘格角点数：9x6（内角点，9列×6行）；每个
Anaconda 详细下载与安装教程
Anaconda详细下载与安装教程1.简介Anaconda是一个用于科学计算的开源发行版，包含了Python和R的众多常用库。它还包括了conda包管理器，可以方便地安装、更新和管理各种软件包。2.下载Anaconda2.1访问官方网站首先，打开浏览器，访问Anaconda官方网站。2.2选择适合的版本在页面中，你会看到两个主要的下载选项：AnacondaIndividualEdition：适用于
python中 @注解及内置注解的使用方法总结以及完整示例慧一居士 Python python
在Python中，装饰器（Decorator）使用@符号实现，是一种修改函数/类行为的语法糖。它本质上是一个高阶函数，接受目标函数作为参数并返回包装后的函数。Python也提供了多个内置装饰器，如@property、@staticmethod、@classmethod等。一、核心概念装饰器本质：@decorator等价于func=decorator(func)执行时机：在函数/类定义时立即执行装饰
Python中的静态方法和类方法详解
在Python中，`@staticmethod`和`@classmethod`是两种装饰器，它们用于定义类中的方法，但是它们的行为和用途有所不同。###@staticmethod`@staticmethod`装饰器用于定义一个静态方法。静态方法不接收类或实例的引用作为第一个参数，因此它不能访问类的状态或实例的状态。静态方法可以看作是与类关联的普通函数，但它们可以通过类名直接调用。classMath
Python中类静态方法：@classmethod/@staticmethod详解和实战示例
在Python中，类方法(@classmethod)和静态方法(@staticmethod)是类作用域下的两种特殊方法。它们使用装饰器定义，并且与实例方法(deffunc(self))的行为有所不同。1.三种方法的对比概览方法类型是否访问实例(self)是否访问类(cls)典型用途实例方法✅是❌否访问对象属性类方法@classmethod❌否✅是创建类的替代构造器，访问类变量等静态方法@stati
Python多版本管理与pip升级全攻略：解决冲突与高效实践码界奇点 Python python pip 开发语言 python3.11 源代码管理虚拟现实依赖倒置原则
引言Python作为最流行的编程语言之一，其版本迭代速度与生态碎片化给开发者带来了巨大挑战。据统计，超过60%的Python开发者需要同时维护基于Python3.6+和Python2.7的项目。本文将系统解决以下核心痛点：如何安全地在同一台机器上管理多个Python版本pip依赖冲突的根治方案符合PEP标准的生产环境最佳实践第一部分：Python多版本管理核心方案1.1系统级多版本共存方案Wind
基于Python的健身数据分析工具的搭建流程day1 weixin_45677320 python 开发语言数据挖掘爬虫
基于Python的健身数据分析工具的搭建流程分数据挖掘、数据存储和数据分析三个步骤。本文主要介绍利用Python实现健身数据分析工具的数据挖掘部分。第一步：加载库加载本文需要的库，如下代码所示。若库未安装，请按照python如何安装各种库（保姆级教程）_python安装库-CSDN博客https://blog.csdn.net/aobulaien001/article/details/133298
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求可曾去过倒悬山 java 前端架构
Java三年经验程序员技术栈全景指南：从前端到架构，对标阿里美团全栈要求三年经验是Java程序员的分水岭，技术栈深度决定你成为“业务码农”还是“架构师候选人”。本文整合阿里、美团、滴滴等大厂招聘要求，为你绘制可落地的进阶路线。一、Java核心：从语法糖到JVM底层三年经验与初级的核心差异在于系统级理解，大厂面试常考以下能力：JVM与性能调优内存模型（堆外内存、元空间）、GC算法（G1/ZGC适用场
scala的option和some 矮蛋蛋编程 scala
原文地址： http://blog.sina.com.cn/s/blog_68af3f090100qkt8.html 对于学习 Scala 的 Java™ 开发人员来说，对象是一个比较自然、简单的入口点。在本系列前几期文章中，我介绍了 Scala 中一些面向对象的编程方法，这些方法实际上与 Java 编程的区别不是很大。我还向您展示了 Scala 如何重新应用传统的面向对象概念，找到其缺点
NullPointerException Cb123456 android BaseAdapter
java.lang.NullPointerException: Attempt to invoke virtual method 'int android.view.View.getImportantForAccessibility()' on a null object reference 出现以上异常.然后就在baidu上
PHP使用文件和目录天子之骄 php文件和目录读取和写入 php验证文件 php锁定文件
PHP使用文件和目录 1.使用include()包含文件 (1)：使用include()从一个被包含文档返回一个值 (2)：在控制结构中使用include() include_once()函数需要一个包含文件的路径，此外，第一次调用它的情况和include()一样，如果在脚本执行中再次对同一个文件调用，那么这个文件不会再次包含。在php.ini文件中设置
SQL SELECT DISTINCT 语句何必如此 sql
SELECT DISTINCT 语句用于返回唯一不同的值。 SQL SELECT DISTINCT 语句在表中，一个列可能会包含多个重复值，有时您也许希望仅仅列出不同（distinct）的值。 DISTINCT 关键词用于返回唯一不同的值。 SQL SELECT DISTINCT 语法 SELECT DISTINCT column_name,column_name F
java冒泡排序 3213213333332132 java 冒泡排序
package com.algorithm; /** * @Description 冒泡 * @author FuJianyong * 2015-1-22上午09:58:39 */ public class MaoPao { public static void main(String[] args) { int[] mao = {17,50,26,18,9,10
struts2.18 +json,struts2-json-plugin-2.1.8.1.jar配置及问题！ 7454103 DAO spring Ajax json qq
struts2.18 出来有段时间了！（貌似是稳定版）闲时研究下下！貌似 sruts2 搭配 json 做 ajax 很吃香！实践了下下！不当之处请绕过！呵呵网上一大堆 struts2+json 不过大多的json 插件都是 jsonplugin.34.jar strut
struts2 数据标签说明 darkranger jsp bean struts servlet Scheme
数据标签主要用于提供各种数据访问相关的功能，包括显示一个Action里的属性，以及生成国际化输出等功能数据标签主要包括： action ：该标签用于在JSP页面中直接调用一个Action，通过指定executeResult参数，还可将该Action的处理结果包含到本页面来。 bean ：该标签用于创建一个javabean实例。如果指定了id属性，则可以将创建的javabean实例放入Sta
链表.简单的链表节点构建 aijuans 编程技巧
/*编程环境WIN-TC*/ #include "stdio.h" #include "conio.h" #define NODE(name, key_word, help) \ Node name[1]={{NULL, NULL, NULL, key_word, help}} typedef struct node { &nbs
tomcat下jndi的三种配置方式 avords tomcat
jndi(Java Naming and Directory Interface，Java命名和目录接口)是一组在Java应用中访问命名和目录服务的API。命名服务将名称和对象联系起来，使得我们可以用名称访问对象。目录服务是一种命名服务，在这种服务里，对象不但有名称，还有属性。 tomcat配置
关于敏捷的一些想法 houxinyou 敏捷
从网上看到这样一句话：“敏捷开发的最重要目标就是：满足用户多变的需求，说白了就是最大程度的让客户满意。” 感觉表达的不太清楚。感觉容易被人误解的地方主要在“用户多变的需求”上。第一种多变，实际上就是没有从根本上了解了用户的需求。用户的需求实际是稳定的，只是比较多，也比较混乱，用户一般只能了解自己的那一小部分，所以没有用户能清楚的表达出整体需求。而由于各种条件的，用户表达自己那一部分时也有
富养还是穷养，决定孩子的一生 bijian1013 教育人生
是什么决定孩子未来物质能否丰盛？为什么说寒门很难出贵子，三代才能出贵族？真的是父母必须有钱，才能大概率保证孩子未来富有吗？-----作者：@李雪爱与自由事实并非由物质决定，而是由心灵决定。一朋友富有而且修养气质很好，兄弟姐妹也都如此。她的童年时代，物质上大家都很贫乏，但妈妈总是保持生活中的美感，时不时给孩子们带回一些美好小玩意，从来不对孩子传递生活艰辛、金钱来之不易、要懂得珍惜
oracle 日期时间格式转化征客丶 oracle
oracle 系统时间有 SYSDATE 与 SYSTIMESTAMP； SYSDATE：不支持毫秒，取的是系统时间； SYSTIMESTAMP：支持毫秒，日期，时间是给时区转换的，秒和毫秒是取的系统的。日期转字符窜：一、不取毫秒： TO_CHAR(SYSDATE, 'YYYY-MM-DD HH24:MI:SS') 简要说明， YYYY 年 MM 月
【Scala六】分析Spark源代码总结的Scala语法四 bit1129 scala
1. apply语法 FileShuffleBlockManager中定义的类ShuffleFileGroup，定义： private class ShuffleFileGroup(val shuffleId: Int, val fileId: Int, val files: Array[File]) { ... def apply(bucketId
Erlang中有意思的bug bookjovi erlang
代码中常有一些很搞笑的bug，如下面的一行代码被调用两次（Erlang beam） commit f667e4a47b07b07ed035073b94d699ff5fe0ba9b Author: Jovi Zhang <[email protected]> Date: Fri Dec 2 16:19:22 2011 +0100 erts:
移位打印10进制数转16进制-2008-08-18 ljy325 java 基础
/** * Description 移位打印10进制的16进制形式 * Creation Date 15-08-2008 9:00 * @author 卢俊宇 * @version 1.0 * */ public class PrintHex { // 备选字符 static final char di
读《研磨设计模式》-代码笔记-组合模式 bylijinnan java 设计模式
声明：本文只为方便我个人查阅和理解，详细的分析以及源代码请移步原作者的博客http://chjavach.iteye.com/ import java.util.ArrayList; import java.util.List; abstract class Component { public abstract void printStruct(Str
利用cmd命令将.class文件打包成jar chenyu19891124 cmd jar
cmd命令打jar是如下实现：在运行里输入cmd，利用cmd命令进入到本地的工作盘符。(如我的是D盘下的文件有此路径 D:\workspace\prpall\WEB-INF\classes) 现在是想把D:\workspace\prpall\WEB-INF\classes路径下所有的文件打包成prpall.jar。然后继续如下操作： cd D: 回车 cd workspace/prpal
[原创]JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 comsci eclipse 设计模式算法工作 swing
JWFD v0.96 工作流系统二次开发包 for Eclipse 简要说明 &nb
SecureCRT右键粘贴的设置 daizj secureCRT 右键粘贴
一般都习惯鼠标右键自动粘贴的功能，对于SecureCRT6.7.5 ，这个功能也已经是默认配置了。老版本的SecureCRT其实也有这个功能，只是不是默认设置，很多人不知道罢了。菜单： Options->Global Options ...->Terminal 右边有个Mouse的选项块。 Copy on Select Paste on Right/Middle
Linux 软链接和硬链接 dongwei_6688 linux
1.Linux链接概念Linux链接分两种，一种被称为硬链接（Hard Link），另一种被称为符号链接（Symbolic Link）。默认情况下，ln命令产生硬链接。【硬连接】硬连接指通过索引节点来进行连接。在Linux的文件系统中，保存在磁盘分区中的文件不管是什么类型都给它分配一个编号，称为索引节点号(Inode Index)。在Linux中，多个文件名指向同一索引节点是存在的。一般这种连
DIV底部自适应 dcj3sjt126com JavaScript
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml&q
Centos6.5使用yum安装mysql——快速上手必备 dcj3sjt126com mysql
第1步、yum安装mysql [root@stonex ~]# yum -y install mysql-server 安装结果： Installed: mysql-server.x86_64 0:5.1.73-3.el6_5 &nb
如何调试JDK源码 frank1234 jdk
相信各位小伙伴们跟我一样，想通过JDK源码来学习Java，比如collections包，java.util.concurrent包。可惜的是sun提供的jdk并不能查看运行中的局部变量，需要重新编译一下rt.jar。下面是编译jdk的具体步骤： 1.把C:\java\jdk1.6.0_26\sr
Maximal Rectangle hcx2013 max
Given a 2D binary matrix filled with 0's and 1's, find the largest rectangle containing all ones and return its area. public class Solution { public int maximalRectangle(char[][] matrix)
Spring MVC测试框架详解——服务端测试 jinnianshilongnian spring mvc test
随着RESTful Web Service的流行，测试对外的Service是否满足期望也变的必要的。从Spring 3.2开始Spring了Spring Web测试框架，如果版本低于3.2，请使用spring-test-mvc项目（合并到spring3.2中了）。 Spring MVC测试框架提供了对服务器端和客户端（基于RestTemplate的客户端）提供了支持。 &nbs
Linux64位操作系统（CentOS6.6）上如何编译hadoop2.4.0 liyong0802 hadoop
一、准备编译软件 1.在官网下载jdk1.7、maven3.2.1、ant1.9.4，解压设置好环境变量就可以用。环境变量设置如下：（1）执行vim /etc/profile （2）在文件尾部加入: export JAVA_HOME=/home/spark/jdk1.7 export MAVEN_HOME=/ho
StatusBar 字体白色 pangyulei status
[[UIApplication sharedApplication] setStatusBarStyle:UIStatusBarStyleLightContent]; /*you'll also need to set UIViewControllerBasedStatusBarAppearance to NO in the plist file if you use this method
如何分析Java虚拟机死锁 sesame java thread oracle 虚拟机 jdbc
英文资料： Thread Dump and Concurrency Locks Thread dumps are very useful for diagnosing synchronization related problems such as deadlocks on object monitors. Ctrl-\ on Solaris/Linux or Ctrl-B
位运算简介及实用技巧（一）：基础篇 tw_wangzhengquan 位运算
http://www.matrix67.com/blog/archives/263 去年年底写的关于位运算的日志是这个Blog里少数大受欢迎的文章之一，很多人都希望我能不断完善那篇文章。后来我看到了不少其它的资料，学习到了更多关于位运算的知识，有了重新整理位运算技巧的想法。从今天起我就开始写这一系列位运算讲解文章，与其说是原来那篇文章的follow-up，不如说是一个r
jsearch的索引文件结构 yangshangchuan 搜索引擎 jsearch 全文检索信息检索 word分词
jsearch是一个高性能的全文检索工具包，基于倒排索引，基于java8，类似于lucene，但更轻量级。 jsearch的索引文件结构定义如下： 1、一个词的索引由=分割的三部分组成：第一部分是词第二部分是这个词在多少