白噪声序列

Python常用数据分析操作

Numpy基础
- 1.多维数组对象：ndarray
- - 1.1 生成多维数组对象
  - 1.2 ndarry的数据类型
  - 1.3 Numpy数组计算
  - 1.4 数组索引与切片
  - 1.5 布尔索引
  - 1.6 神奇检索
  - 1.7 数组转置与换轴
- 2. 通用函数：向量化计算
- 3. 使用数组进行面向数组编程
- - 3.1 将条件逻辑作为数组操作
  - 3.2 数学和统计方法
  - 3.3 排序
  - 3.4 其他集合逻辑
- 4. 线性代数
- 5. 示例：随机漫步
pandas入门
- 1.pandas数据结构
- - 1.1 series
  - 1.2 DataFrame
  - 1.3 索引对象
- 2. 基本功能
- - 2.1 重建索引
  - 2.2 删除条目
  - 2.3 索引、选择、过滤
  - 2.4 算术和整数对齐
  - 2.5 函数应用和映射
  - 2.6 排序和排名
- 3. 描述性统计
- - 3.1 相关性和协方差
  - 3.2 其他方法
数据载入、存储、文件格式
- 1.文本格式数据读写
- - 1.1 分块读入文本文件
  - 1.2 将数据写入文本
  - 1.3 使用分隔格式
- 2.其他格式
- - 2.1 读取Excel文件
数据清洗与准备
- 1. 缺失值
- - 1.1 过滤缺失值
  - 1.2 缺失值填补
- 2. 数据转换
- - 2.1 删除重复值
  - 2.2 使用函数或映射进行数据转换
  - 2.3 替代值
  - 2.4 重命名轴索引
  - 2.5 离散化和分组

Numpy基础

1.多维数组对象：ndarray

1.1 生成多维数组对象

array函数
该函数的参数为任意的序列型对象，比如Python内建的列表对象

import numpy as np 

ls1 = range(1,10,1)
array1 = np.array(ls1)

ls2 = [[1,2,3,4],[5,6,7,8]]
array2 = np.array(ls2)

在生成多维数组后，可以使用array.shape查看维数，array.dtype查看数据类型。
也可以使用内建函数range的数组版：

array = np.arange(0,10,2)

此外还有其他生成特殊数组的方法：

array3 = np.zeros(10)
array4 = np.ones(3,6) #创建3行6列的1数组
array5 = np.empty(2,3,2)

更多的数组生成函数可以参考书P91的表4-1

1.2 ndarry的数据类型

数据类型(dtype)也是一种对象，可以在创建数组的时候进行声明：

array6 = np.array([1,2,3], dtype = np.float64)
array7 = np.array([1,2,3], dtype = np.int32)

此外还可以利用astype方法转换数组数据类型：

array6.astype(np.int32)
array6.dtype

也可以用astype方法将全部是数字的字符串转换为数字。
甚至直接用另一个数组的dtype属性作为astype方法的参数

1.3 Numpy数组计算

利用Numpy创建的数组具有一个重要的特性：可以进行向量化操作，而无须进行循环

array2 * array2 #会把array2中的每个元素分别相乘
1 / array2 #会用1除以array2中的每个元素

1.4 数组索引与切片

对于一维数组，Numpy的索引和切片方法与Python的List类型相似。但是与Python的内建列表不同，数组的切片是原数组的视图，即任何对于视图的的修改都会反映到原数组上，看个例子就知道是什么意思了：

In [4]: arr[5:8]                                                                
Out[4]: array([5, 6, 7])

In [5]: arr_slice = arr[5:8]                                                    

In [6]: arr_slice[1] = 10                                                       

In [7]: arr                                                                     
Out[7]: array([ 0,  1,  2,  3,  4,  5, 10,  7,  8,  9])

可以看到对于切片的改变也会改变原数组。
这反映了在Numpy中很少去做赋值数组这种操作，因为Numpy本身设计的目的是处理大数组的，所以如果总是在复制数据会占用很多内存。
如果非得复制数据切片的话，需用方法copy()：

arr_slice = arr[5:8].copy()

在多维数据中，情况会稍显复杂：
我们先创建一个3*3*1的数组看看：

In [9]: arr2d = np.array([[1,2,3],[4,5,6],[7,8,9]])                             

In [10]: arr2d                                                                  
Out[10]: 
array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [11]: arr2d[2]                                                               
Out[11]: array([7, 8, 9])

In [12]: arr2d[2][2]                                                            
Out[12]: 9

In [13]: arr2d[2,2]                                                             
Out[13]: 9

即如果只用一个索引，会返回一整行。要返回某个具体元素的话，得用递归。
再来创建一个2*2*3的数组看看：

In [14]: arr3d = np.array([[[1,2,3],[4,5,6]],[[7,8,9],[10,11,12]]])             

In [15]: arr3d                                                                  
Out[15]: 
array([[[ 1,  2,  3],
        [ 4,  5,  6]],

       [[ 7,  8,  9],
        [10, 11, 12]]])

In [16]: arr3d[0]                                                               
Out[16]: 
array([[1, 2, 3],
       [4, 5, 6]])

In [17]: arr3d[1]                                                               
Out[17]: 
array([[ 7,  8,  9],
       [10, 11, 12]])

In [18]: arr3d[0][0]                                                            
Out[18]: array([1, 2, 3])

所谓2*2*3数组，意思是每个元素都是3维数组，矩阵为2*2的。
注意以上所有子集选择返回的都是视图。

多维数组切片也与一维数组不太一样，与索引类似，进行切片时，首先对行切片，然后才是对列切片：

In [19]: arr2d[:2]                                                              
Out[19]: 
array([[1, 2, 3],
       [4, 5, 6]])

In [20]: arr2d[:2,1:]                                                           
Out[20]: 
array([[2, 3],
       [5, 6]])

此外还可以把索引和切片结合：

In [22]: arr2d[0, :1]                                                           
Out[22]: array([1])

这样就是选择了第一行（通过索引），然后选择了第一行的前一列（通过切片）

切片[:]表示选择所有的数组，通过结合这个操作就可以单纯返回列的切片：

In [23]: arr2d[:, :1]                                                           
Out[23]: 
array([[1],
       [4],
       [7]])

我把下面这张图称为：随心所欲想怎么切怎么切

1.5 布尔索引

布尔索引值就是用一些条件判断式来对多维数组进行索引。
比如我们有一个姓名数组，另一个多维数组存储的是相应的不同人的数据（利用numpy.random中的randn函数随机生成正态分布数据）：

In [25]: names = np.array(['bob','joe','will','bob','will','joe','joe'])        

In [26]: data = np.random.randn(7,4)                                            

In [27]: names                                                                  
Out[27]: array(['bob', 'joe', 'will', 'bob', 'will', 'joe', 'joe'], dtype=')

In [28]: data                                                                   
Out[28]: 
array([[ 0.33570344, -0.35161261, -1.46194168, -0.09575411],
       [ 1.12495352,  1.01942178, -0.57483366, -0.76607756],
       [ 0.40598446, -0.26207084,  1.21948522, -0.65978086],
       [ 0.1566132 , -0.19558611,  3.31560437,  0.65168252],
       [ 0.70533795, -0.02594408, -0.7427101 ,  0.99027039],
       [ 0.18283008, -0.71197155,  0.8294305 ,  0.98896259],
       [ 1.69864451,  0.08284518,  0.64629488, -0.6459553 ]])

现在我们只想查看Bob的数据，该怎么索引呢？：

In [30]: data[names == 'bob']                                                   
Out[30]: 
array([[ 0.33570344, -0.35161261, -1.46194168, -0.09575411],
       [ 0.1566132 , -0.19558611,  3.31560437,  0.65168252]])

我们还可以只看Bob的前两项数据：

In [31]: data[names == 'bob', :2]                                               
Out[31]: 
array([[ 0.33570344, -0.35161261],
       [ 0.1566132 , -0.19558611]])

可以看除了Bob以外的所有人的数据，可以使用!=或者~符号

data[names != 'bob']
data[~(names == 'bob')]

可以选择bob和joe的数据：

In [35]: data[(names == 'bob') |( names == 'joe')]

注意在numpy检索中，python关键字and和or失效，只能使用&,|
除了检索之外，还可以直接把检索出来的结果赋值。

此外，利用布尔值索引选择数据时，总是会生成数据的拷贝，返回的数组不会发生变化。

1.6 神奇检索

之前我们试过了在多维数组方括号[]中加入数字（索引），加入:进行切片，或者加入表达式进行布尔值检索，我们还可以继续加入数组，产生神奇的检索效果：返回符合特定顺序的子集：

array[[3,2,1]] ##按顺序返回第4行、第3行、第2行数据

按照之前的习惯，如果再加入一个数组会怎样？

array[[3,2,1],[1,2,3]]

这时会依次返回元素(3,1),(2,2,),(1,3)
但是如果是想按3，2，1的顺序返回行，再在返回数据中按1，2，3的顺序返回列怎么办？这时候应该使用一次递归：

array[[3,2,1]][:,[1,2,3]]

注意神奇索引与布尔值索引类似，都会返回数据的拷贝。

1.7 数组转置与换轴

数组转置，直接用其特殊的T属性就可以了：

array.T

数组转置后会返回底层数据的视图，不需要进行数据复制。
或者可以使用transpose方法：

arrary.transpose()

而对于高维数据，transpose方法可以接受包含轴编号的元组，用于置换轴：

In [36]: arr = np.arange(16).reshape((2,2,4))                                   

In [37]: arr                                                                    
Out[37]: 
array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [38]: arr.transpose((1,0,2))                                                 
Out[38]: 
array([[[ 0,  1,  2,  3],
        [ 8,  9, 10, 11]],

       [[ 4,  5,  6,  7],
        [12, 13, 14, 15]]])

上述操作中，把原来的1轴和0轴进行了交换

2. 通用函数：向量化计算

常用的通用函数如下：

np.sqrt(arr) #对每个元素求平方根
np.exp(arr) #对每个元素求指数幂
np.add(arr1,arr2) #将两个数组求和，返回一个数组作为结果
np.maximum(arr1,arr2) #求两个数组同一位置上的最大值，返回一个数组作为结果
value1, value2 = np.modf(arr) #返回浮点值数组的小数部分和整数部分

更多的一元和二元通用函数可以见书P108的表4-3和表4-4

3. 使用数组进行面向数组编程

假设我们想要对网格数据进行计算，例如计算 $\sqrt{x^2+y^2}$ ：

points = np.arange(-5, 5, 0.01)
xs, ys = np.meshgrid(points, points)

这里用到了np.meshgrid(xarray, yarray)函数，这个函数接收两个一维数组作为参数，并且返回两个数组，返回的第一个数组是以xarray为行，一共ydimension行；第二个数组以yarray的转置为列，一共xdimension列。

z = np.sqrt(xs ** 2 + ys ** 2)

3.1 将条件逻辑作为数组操作

numpy.where函数是python内建的x if condition else y的向量化版本：

np.where(cond, xarr, yarr)

这条语句会使得当cond中的元素为真时，返回xarr中的对应元素值，当cond中的元素为假时，返回yarr中的对应元素值。

除此之外np.where的第二个和第三个参数还可以是标量，比如我们要把一个随机生成的数据矩阵中的正值替换为2，负值替换为-2；或者只把正值替换为2，负值不动：

arr = np.random.randn(4,4)
np.where(arr > 0, 2, -2)
np.where(arr > 0, 2, arr)

3.2 数学和统计方法

可以用np.mean(arr)计算数组所有数值的平均数，也可以调用方法arr.mean()计算，还可以在方法中加上可选参数axis，来计算数组在某个方向上的统计值：arr.mean(0)，arr.mean(1)
当然除了平均数可以这么用之外，求和sum，求标准差std都可以这么用
还有函数cumsum，是从第一个元素开始累积求和。

我们还可以把数学统计方法和布尔值表达式结合，比如我们要计算某个数组中所有正数的和：

(arr > 0).sum()

3.3 排序

和python一样，在numpy中也是使用sort方法进行排序：

arr = np.random.randn(6)
arr.sort()

而在多维数组中，还可以向sort()方法传递参数，判断是按照哪个轴进行排序

arr = np.random.randn(2,3)
arr.sort(1)

3.4 其他集合逻辑

numpy中还有一些专门针对一维ndarray的操作，例如np.unique，会返回数组中的唯一值：

In [2]: names = np.array([3,3,2,2,1,4,5,])                                      

In [3]: np.unique(names)                                                        
Out[3]: array([1, 2, 3, 4, 5])

还有其他很多集合操作，详见书P115的表4-6

4. 线性代数

来看看numpy中的线性代数运算：

x = np.random.randn(2,3)
y = np.random.randn(3,3)
z = np.dot(x,y)

np.dot(x,y)表示对x,y做点乘，也可以写成x.dot(y)
注意如果是x * y，做的是向量化运算（即每个元素相乘）

如果要做其他的线性代数运算，需要利用np.linalg函数集：

np.linalg.det(x) ## 计算矩阵的行列式
np.linalg.diag(x) ## 将方阵的对角元素作为一维数组返回
np.linalg.trace(x) ## 计算矩阵的迹
np.linalg.inv(x) ## 计算矩阵的逆矩阵

5. 示例：随机漫步

import random
import matplotlib.pyplot as plt
position = 0
walk = [position]
steps = 1000
for i in range(steps):
	step = 1 if random.randint(0,1) else -1
	position += step
	walk.append(position)
plt.plot(walk[:100])
plt.show()

这个是纯python风格的代码，如果想要进行大量计算，还是用numpy比较好：

import numpy as np
nsteps = 1000
draws = np.random.randint(0, 2, size = nsteps)
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum()
plt.plot(walk)
plt.show()

这里的np.where函数就比较有灵性，省掉了if判断语句，而且对于累计求和直接用cumsum函数代替
利用numpy我们可以同时模拟多次随机漫步：

import numpy as np
nsteps = 1000
nwalks = 5000
draws = np.random.randint(0, 2, size = (nwalks, nsteps))
steps = np.where(draws > 0, 1, -1)
walk = steps.cumsum(1)

pandas入门

1.pandas数据结构

1.1 series

series类型与数组有些相似，每个数据都对应着一个索引值。

In [1]: import pandas as pd                                                     

In [2]: obj = pd.Series([4, 7, -5, 3])                                          

In [3]: obj                                                                     
Out[3]: 
0    4
1    7
2   -5
3    3
dtype: int64

对于Series对象，可以用value和index属性获得对象的值和索引。
除此之外，我们还可以自己定义索引值，并通过索引值直接访问对象。

In [4]: obj = pd.Series([4, 7, -5, 3], index = ['a', 'b', 'c', 'd'])            

In [5]: obj.index                                                               
Out[5]: Index(['a', 'b', 'c', 'd'], dtype='object')

In [7]: obj['a']                                                                
Out[7]: 4

可以使用Numpy风格的操作，比如利用布尔值数组进行过滤，或者进行向量化计算：

In [8]: obj[obj > 0]                                                            
Out[8]: 
a    4
b    7
d    3
dtype: int64

In [9]: obj * 2                                                                 
Out[9]: 
a     8
b    14
c   -10
d     6
dtype: int64

In [10]: import numpy as np                                                     

In [11]: np.exp(obj)                                                            
Out[11]: 
a      54.598150
b    1096.633158
c       0.006738
d      20.085537
dtype: float64

我们可以把Series看作是一种字典。因此如果已经在Python内置数据结构中生成了一个字典，可以利用该字典生成Series。
我们还可以设定好index数组的内容，并传入该字典中，使得字典的输出内容以我们输入的index为序。

In [12]: sdata = {'Ohio': 35000, 'Texas': 710000}                               

In [13]: obj2 = pd.Series(sdata)                                                

In [14]: obj2                                                                   
Out[14]: 
Ohio      35000
Texas    710000
dtype: int64

In [15]: states = ['California', 'Ohio', 'Texas']                               

In [16]: obj3 = pd.Series(sdata, index = states)                                

In [17]: obj3                                                                   
Out[17]: 
California         NaN
Ohio           35000.0
Texas         710000.0
dtype: float64

此外我们还可以检验Series中是否存在缺失值，检验方法有两种：

利用pandas中的isnull和notnull函数；
利用Series的isnull和notnull方法。

对Series之间的运算跟数据库的join操作有些类似，类似于full join。

Series自身和索引还有一个重要的属性：name，可以将这个属性理解为Series自己的名称：

In [18]: obj3.name = 'population'
In [21]: obj3.index.name = 'state' 
In [22]: obj3                                                                   
Out[22]: 
state
California         NaN
Ohio           35000.0
Texas         710000.0
Name: population, dtype: float64

1.2 DataFrame

dataframe数据类型有点像R里的数据框，它是已排序的列集合，可以被视作是一个共享共同索引的Series的字典。
创建dataframe的方法有很多，最常用的是利用包含等长列表或numpy数组的字典来形成dataframe，然后可以通过指定参数columns来按照指定顺序排列，并且用index把列的顺序传给dataframe，如果index中有某一列不包含在字典中，结果中会出现缺失值。

data = {
	'state': ['a', 'b', 'c', 'd'],
	'year': [1,2,3,4],
	'pop':	[1.5,1.7,1.8,2.0]
}
frame = pd.DataFrame(data, columns = ['year', 'state', 'pop'],/
index = ['one', 'two', 'three', 'four'])

输出的dataframe是这样的：

另外一种创建dataframe的方法是利用包含字典的嵌套字典：

pop = {
	'Nevada': {2001 : 2.4, 2002 : 2.9},
	'Ohio': {2000 : 1.5, 2001 : 1.7, 2002 : 3.6}
}
frame2 = pd.DataFrame(pop)

用这个方法创建dataframe时，列是字典的键，索引是内部字典的键。输出结果为：

在dataframe中，我们可以直接检索出某一列，检索方法有两种：

像字典一样检索frame['year']
利用属性检索frame.year

可以直接对列的值进行修改，但是注意修改时长度必须要匹配，否则会报错。

frame['pop'] = 16.5
frame['pop'] = np.arange(4.)

此外还可以将一组Series的值赋给dataframe,且可以指定index值，未指定的index会填充缺失值。如果被赋值的列不存在时会创建新列。注意只有用检索方法才能创建新列，属性方法不能创建新列。

val = pd.Series([-1.2,-1.5,-1.7], index = ['two', 'four', 'five'])
frame.pop = val

和series类似，dataframe也有name属性，比如我们可以分别给索引和列指定name：

frame2.index.name = 'year'
frame2.columns.name = 'state'

而dataframe的values属性会将包含在dataframe中的数据以二维ndarray的形式返回。

从dataframe中选取的列是数据框的视图，不是数据框的拷贝，对选取列的修改会直接影响dataframe，如果需要复制则需要使用copy方法。

可以使用类似Numpy的方法对dataframe进行矩阵操作，如转置，此时会把列和索引进行调换。

frame2.T

1.3 索引对象

在pandas中，索引也是作为一个对象存在的，可以将其看作是不可修改的数组，甚至可以对它进行切片。

obj = pd.Series(range(3), index = ['a', 'b', 'c'])
index = obj.index
index[1:]

在pandas中创建索引对象的方法是用Index函数：

labels = pd.Index(np.arange(3))
obj2 = pd.Series(range(3), index = labels)

有个需要注意的小点是，在pandas中，索引名可以重复。

2. 基本功能

2.1 重建索引

reindex方法可以将已经编制好的Series按照新的索引进行排列，当索引值之前不存在时，将会引入缺失值。

import pandas as pd 
obj = pd.Series([4, 7, -2, 3], index = ['d', 'b', 'a', 'c'])

obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])

reindex方法中还有一个method方法，它允许我们再重建索引时按照合适的方法对数据进行插补，如：使用ffill方法，将值前项填充

obj = pd.Series([4,5,6,1], index = [1, 4, 5, 7])
obj2 = obj.reindex(range(8), method = 'ffill')

除了Series，reindex还可以对DataFrame使用：
比如我们先创建一个DataFrame

frame = pd.DataFrame(np.arange(9).reshape((3,3)), 
					index = ['a', 'c', 'd'], 
					columns = ['O', 'T', 'C'])

然后可以分别改变DataFrame的行索引和列索引，如果只有一个参数时，默认重建行索引。

frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame.reindex(colunmns = ['T', 'U', 'C'])

一种更为便捷的索引方式是使用loc方法：

frame.loc[['a','b','c','d'], ['T','U','C']]

2.2 删除条目

使用drop方法可以删除某个轴向的一整条数据，它会返回一个新对象，如果加上inplace参数，则会清除被删除的数据。
例如在Series中

obj = pd.Series([4,5,6,1], index = [1, 4, 5, 7])
obj2 = obj.reindex(range(8), method = 'ffill')
obj2.drop(1, inplace = True)

在DataFrame中同理，只不过优先删除行向上的数据，列向上的数据需要通过指定参数axis = 'columns'来完成。

2.3 索引、选择、过滤

在Series中进行索引与在Numpy数组中进行索引操作相似，只是Series可以同时使用数字（行号）和索引值进行索引，此外也可以用表达式进行索引。还有一个需要注意的问题是Series进行索引时是包含最后一项值的。

在DataFrame中，情况有所不同，

In [23]: data = pd.DataFrame(np.arange(16).reshape((4,4)), 
    ...:                     index = ['O','C','U','N'], 
    ...:                     columns = ['one','two','three','four'])            

In [24]: data                                                                   
Out[24]: 
   one  two  three  four
O    0    1      2     3
C    4    5      6     7
U    8    9     10    11
N   12   13     14    15

In [25]: data['two']                                                            
Out[25]: 
O     1
C     5
U     9
N    13
Name: two, dtype: int64

In [26]: data[['four','one']]                                                   
Out[26]: 
   four  one
O     3    0
C     7    4
U    11    8
N    15   12

In [30]: data[:2]                                                               
Out[30]: 
   one  two  three  four
O    0    1      2     3
C    4    5      6     7

In [33]: data[data['three'] > 5]                                                
Out[33]: 
   one  two  three  four
C    4    5      6     7
U    8    9     10    11
N   12   13     14    15

In [35]: data > 5                                                               
Out[35]: 
     one    two  three   four
O  False  False  False  False
C  False  False   True   True
U   True   True   True   True
N   True   True   True   True

In [36]: data[data > 5] = 0                                                     

In [37]: data                                                                   
Out[37]: 
   one  two  three  four
O    0    1      2     3
C    4    5      0     0
U    0    0      0     0
N    0    0      0     0

这里有点Numpy中数组操作的感觉。

再介绍两种索引方法：loc, iloc，其中loc可以使用轴标签进行索引，iloc可以使用整数标签进行索引。

data.loc['C', ['two', 'three']]
data.iloc[[1,2], [3,0,1]]

甚至可以用这两种索引符号进行切片索引

data.loc[:'U', 'two']
data.iloc[:, :3][data.three > 5]

2.4 算术和整数对齐

在pandas中，可以对不同索引的对象进行算术运算，如果存在索引值对不相同的情形，将会把两个对象取并集，即类似于数据库中out join

对于dataframe来说，如果行或列上存在不匹配，都会执行数据对齐操作（即分别取并集）。

取并集的结果就是会出现缺失值标记NaN，影响后续计算，比如我们希望缺失值可以被视作0看待，进行后面的计算，此时就行不通了。

那么接下来考虑一下如何对默认设置的缺失值进行填充。方法就是在某个dataframe上使用以下方法，并指定参数fill_value

方法	描述
add	+
sub	-
div	/
floordiv	//
mul	*
pow	**

例如我们可以用

df1.add(df2, fill_value = 0)

就是把df2中的缺失值标记为0

那如果是对dataframe和series之间进行运算会有什么结果？看一个例子：

frame = pd.DataFrame(np.arange(12.).reshape((4,3)),
					columns = list("bde"),
					index = ['U', 'O', 'T', 'I'])
series = frame.iloc[0]

print(frame - series)

运算结果如下，dataframe的列会与series的索引进行匹配：

可以看到frame中的每一行都减去了series，这就是所谓广播机制。

注意两点：

dataframe与series必须要匹配上，对于没有匹配上的会设置成NaN
默认情况是对行进行广播，如果想要对列进行广播，必须要使用算术方法，并且要指定参数

series2 = frame.iloc[:,1]
frame.sub(series2, axis = 'index')

2.5 函数应用和映射

一般numpy中的函数对pandas对象也有效
可以将函数应用到某一行或一列的一维数组上，使用datafrmae中的apply方法，默认是对列进行处理。如果需要对行进行处理，可以指定参数axis = 'columns'

def f(x):
	return x.max() - x.min()

frame.apply(f)

除了这么用之外，还可以返回一个series

def f2(x):
	return pd.Series([x.min(), x.max()], index = ['min', 'max'])

frame.apply(f2)

如果需要按元素使用函数，那么可以对dataframe用applymap方法，而对于series，我们可以用map方法。

2.6 排序和排名

使用sort_index方法可以对series或dataframe按照索引值进行排序，在dataframe中默认对index进行排序，如果需要对columns进行排序，需要额外指定参数frame.sort_index(axis = 1)
一般默认按照升序排序，如果需要按照降序排序，需要额外指定参数frame.sort_index(ascending = False)
如果需要对series的值进行排序，使用sort_values方法，默认会把缺失值放在尾部。
在对dataframe的值进行排序时，需要指定要排序的列，并且排序有先后顺序，frame.sort_values(by = ['a', 'b'])

排名可以返回给定series中每个数据的相对大小，使用内置的rank()方法实现，同时如果有相同值，会默认进行平均化
如果不希望进行平均化处理，加入参数rank(method = 'first')，相同数字出现在前面的序号较低
默认从低到高进行排名，越大的值排名越高，也可以通过制定参数ascending = False进行调整
也可以对dataframe进行排名，但需要指定是行还是列：frame.rank(axis = 'columns')

3. 描述性统计

pandas中可以对dataframe按照行或者列进行聚合计算，并且计算中缺失值是被默认忽略的，例如frame.sum()，可以返回每一列的总和，frame.sum(axis = 'columns')可以返回每一行的和
可以直接求列的最大值或最小值，frame.idxmax()或frame.idxmin()
可以求累加和frame.cumsum()，但是这里不会替代原本的缺失值
使用函数frame.descirbe()可以自动返回每一列的很多有关统计量的值。
更多的操作方法见书籍P159的表5-8

3.1 相关性和协方差

计算两列之间的相关系数：frame['O'].corr(frame['I])
计算两列之间的协方差：frame['O'].cov(frame['I'])
计算协方差矩阵：frame.cov()
计算相关系数矩阵：frame.corr()
采用corrwith方法，可以计算一个dataframe中的每一列与传入的某个series的相关系数frame.corrwith(frame['I'])

3.2 其他方法

返回一组数据的不重复集合：series.unique()，返回结果是数组。
对series的值进行计数：series.value_counts()，也可以使用value_counts()函数，将值作为参数
计算某个数字是否属于series，并且返回对应的项：mask = series.isin(['b','c'], series[mask]

数据载入、存储、文件格式

1.文本格式数据读写

利用pandas中的解析函数可以读入大部分格式的数据。例如利用read_csv读入CSV格式数据，其中以逗号作为默认分隔符，利用read_table读入以制表符为默认分隔符的文件，read_excel从excel的xls或xlsx中读取表格数据。

讨论几种情况：

用read_table读入以逗号为分隔符的文件，需要修改参数sep，pd.read_table("filename", sep = ',')。如果分隔符是不同数量的空格，则需要使用正则表达式作为分隔符，pd.read_table("filename", sep = "\s+")
如果原始文件不包含标题行，需要指定参数header，`pd.read_csv(“filename”, header = None)
如果原始文件不包含标题行，还可以通过参数names自己指定，pd.read_csv("filename", names = [ ...]
若文件中有一列为索引列，又缺少标题行，则需要先指定标题，然后确定索引列names = ['a','b',message], pd.read_csv("filename", names = names, index_col = 'message')
此外还可以指定两列为索引列，形成分层索引

1.1 分块读入文本文件

一种常见的情况是需要处理的文件是大文件，此时只需要读入文件中的一个小片段，或者按照片段遍历整个文件。
通常为了屏幕上能把一个观测的数据完整展现出来，设置pd.options.display.max_rows = 10。
想要读取部分文件，指定参数nrows =。
在分块读入数据时，通过指定参数chunksize，确定每一块的行数，此时会返回TextParser对象，能够根据chunksize遍历文件。

chunker = pd.read_csv("filename", chunksize = 1000)
tot = pd.Series([])
for piece in chunker:
	tot = tot.add(piece['key'].value_counts(), fill_value = 0)

tot = tot.sort_values(ascending = False)

1.2 将数据写入文本

现在看看如何导出数据。
对于dataframe数据，用to_csv方法即可导出：data.to_csv("filename")
这种输出方式的分隔符默认为逗号，可以控制用其他的分隔符进行代替，此外如果有缺失值，在文本中是默认用空格表示的，可以替换成其他标注方式。

import sys 
data.to_csv(sys.stdout, sep = "|", na_rep = "NULL")
## sys.stdout的意思是直接观察控制台中打印的文本效果

也可以指定不输出行、列标签信息，或者只输出某些列

data.to_csv(sys.stdout, index = False, header = False)
data.to_csv(sys.stdout, index = False, columns = ['a', 'b', 'c'])

1.3 使用分隔格式

一般来说观测都是按行记录的，如果碰到按列记录的情况该怎么处理？例如

a	b
1	2
1	3

如果一个文件中只有单字符分隔符，可以使用Python内建的csv版块

with open("examples/ex7.csv") as f:
	lines = list(csv.reader(f))

然后提取出标题行和数据行

header, values = lines[0], lines[1:]

然后就可以生成一个包含观测的字典了：

data_dict = {h : v for h, v in zip(header, zip(*values))}

其中zip(*values)表示对values的解压

>>> a = [1,2,3]
>>> b = [4,5,6]
>>> c = [4,5,6,7,8]
>>> zipped = zip(a,b)     # 打包为元组的列表
[(1, 4), (2, 5), (3, 6)]
>>> zip(a,c)              # 元素个数与最短的列表一致
[(1, 4), (2, 5), (3, 6)]
>>> zip(*zipped)          # 与 zip 相反，可理解为解压，为zip的逆过程，可用于矩阵的转置
[(1, 2, 3), (4, 5, 6)]

2.其他格式

2.1 读取Excel文件

frame = pd.read_excel("filenmae", "sheet1")

如果需要将数据写入excel，则需要先生成一个ExcelWriter，然后利用对象的to_excel方法写入数据。

writer = pd.ExcelWriter("filename")
frame.to_excel(writer, "sheet1")

或者直接写成

frame.to_excel("filename")

数据清洗与准备

1. 缺失值

1.1 过滤缺失值

在pandas中，为了返回一个series中所有的非空数据及其索引，可以使用dropna方法。

data = pd.Series([1, NA, 3.5, NA, 7])
data.dropna()

但是在dataframe中就相对比较麻烦，因为对于dataframe，默认删除含有缺失值的所有行。如果只想删掉全部数据都是NA的行，需要添加参数how，如果需要删除全部数据都是NA的列，需要添加参数axis

data.dropna(how = "all")
data.dropna(how = 'all', axis = 1)

我们还可以再个性化一点，例如设置如果缺失值大于等于2，就删除该条观测，通过指定thresh参数：

data.dropna(thresh = 2)

1.2 缺失值填补

通过调用fillna()方法补全缺失值，可以指定一个常数来填补缺失值，再个性化一点，可以对不同的列指定不同的填补常数（参数为字典），当然最常用的方法是利用均值进行填补

df.fillna(0)
df.fillna({1 : 0.5, 2 : 0})

data = pd.Series([1., NA, 3.5, NA, 7])
data.fillna(data.mean())

通过fillna方法，返回一个新的对象，如果想要对原始数据进行修改，可以添加inplace = True参数。

2. 数据转换

2.1 删除重复值

在dataframe中，可以用duplicated方法返回一个布尔型series，可以说明dataframe中每一行之间是否存在重复。而用drop_duplicates可以删掉重复的观测。
当然也可以不检测所有的列是否存在重复，可以单独指定某个列，这样只会保留该列中的不重复观测frame.drop_duplicates(['k1'])
判断和删除重复值时，默认保留第一个观测的值，如果要保留最后的值，可以传入参数keep = 'last'。

2.2 使用函数或映射进行数据转换

series的map方法接收一个函数或一个包含映射关系的字典型对象，从而可以进行键值对匹配。
例如dataframe中储存量一些肉和它们的重量，现在要增加一列：每种肉的类型，因此需要新建一列data['animal']

data['animal'] = data['food'].map(meat_to_animal)

2.3 替代值

data.replace({-999 : np.nan, -1000 : 0})

这样就可以把series中的-999替换成缺失值，-1000替换成0.

2.4 重命名轴索引

假设我们想把dataframe的index都变成大写字母，有以下两种方法：

使用map方法
使用rename方法

data = pd.DataFrame(np.arange(12).reshape(3,4),
				index = ['Ohio', 'Colorado', 'Newyork'],
				columns = ['one', 'two', 'three', 'four']
transform = lambda x : x[:4].upper()

# 使用map方法
data.index = data.index.map(transform)
# 使用rename方法
data.rename(index = str.upper)

此外还可以通过rename方法单独对某个index或columns进行重命名，只需在参数里传入一个字典就可以了：

data.rename(index = {'Ohio' : 'INDIANA'},
			columns = {'three' : 'peekaboo'})

如果想要对原数据集进行修改，参数中传入inplace = True。

2.5 离散化和分组

假如有一组关于年龄的数据ages，需要把这组数据按照年龄段进行划分，则需要用到cut函数，第一个参数是原始数据，第二个参数是需要分组的节点。

bins = [18, 25, 35, 60, 100]
cats = pd.cut(ages, bins)

这个函数返回的对象，是原始数组ages中每个数据对应的组，可以通过cats.codes查看每个数据的组别，通过cats.categories查看一共有几个组，pd.value_counts(cats)查看每一组中元素的个数。

你可能感兴趣的:(Python,数据分析)

uwsgi 安装
1.根据机器python环境版本进行安装pip/pip3installuwsgi安装可能报错[gcc-pthread]plugins/python/python_plugin.oInfileincludedfromplugins/python/python_plugin.c:1:plugins/python/uwsgi_python.h:2:10:fatalerror:Python.h:Nosuc
第47章 Python uWSGI 安装配置教程你得不到的念想 Python python 开发语言 linux
本文主要介绍如何部署简单的WSGI应用和常见的Web框架。以Ubuntu/Debian为例，先install依赖包：apt-getinstallbuild-essentialpython-devPythoninstalluWSGI1、通过pip命令：pipinstalluwsgi2、downloadinstall脚本：curlhttp://uwsgi.it/install|bash-sdefaul
Python selenium 库 AI老李 python python selenium 开发语言
关键要点PythonSelenium库用于自动化Web浏览器，适合测试和爬虫，中文教程资源丰富。推荐菜鸟教程、CSDN博客和Selenium-Python中文文档，涵盖基础到进阶。学习需注意浏览器驱动匹配和动态加载处理，可能需显式等待。资源推荐以下是适合初学者和中级学习者的中文教程：菜鸟教程：提供全面的Selenium教程，包括安装和示例，详见Selenium教程。Selenium-Python中
Python3 内置函数 AI老李 python python
关键要点Python3的内置函数是解释器直接提供的，无需导入即可使用，涵盖数据类型转换、数学操作、序列处理等多种功能。推荐使用官方文档、菜鸟教程和腾讯云开发者社区的中文资源，适合初学者和中级学习者。资源提供详细解释和示例，学习时可结合实际项目实践。简介Python3的内置函数是编程中常用的工具，方便用户快速实现各种操作。以下是几个主要资源，帮助您学习这些函数的用法。资源推荐Python官方文档：内
安装uwsgi
安装uWSGIpip3installuwsgi启动命令/usr/local/python3/bin/uwsgi--socket0.0.0.0:8889--workersrun_server:app_server--master--processes4--threads2--stats0.0.0.0:9191在项目目录下新建[uwsgi]#web应用的入口模块名称module=run_server:
Python uWSGI 安装配置 AI老李 python python 开发语言
关键要点uWSGI安装和配置适合PythonWSGI应用，资源丰富，适合初学者和中级用户。推荐菜鸟教程和官方文档，涵盖Linux和Windows环境。配置需注意操作系统差异和框架（如Django、Flask）需求。安装步骤uWSGI安装通常通过pip或源码编译完成。以下是基本步骤：Linux：安装依赖（如build-essentialpython-dev），然后用pipinstalluwsgi或编
《Python星球日记》第35天：全栈开发（综合项目） Code_流苏 Python星球日记编程项目实战 Python全栈开发 Django Flask 后端开发博客系统
名人说：路漫漫其修远兮，吾将上下而求索。——屈原《离骚》创作者：Code_流苏(CSDN)（一个喜欢古诗词和编程的Coder）专栏：《Python星球日记》，限时特价订阅中ing目录一、全栈开发概述1.全栈开发的优势2.全栈开发技能组合二、博客系统项目需求分析1.功能需求2.技术栈选择3.项目结构规划三、数据库设计1.实体关系分析2.Django模型设计四、后端开发1.Django项目创建2.视图
Python的科学计算库NumPy（一） linlin_1998 python numpy 开发语言
NumPy(NumericalPython)是Python中最基础、最重要的科学计算库之一，提供了高性能的多维数组（ndarray）对象和大量数学函数，是许多数据科学、机器学习库（如Pandas、SciPy、TensorFlow等）的基础依赖。1.创建一个numpy里面的一维数组importnumpyasnp###通过array方法创建一个ndarrayarray1=np.array([1,2,3
vllm本地部署bge-reranker-v2-m3模型API服务实战教程雷电法王大模型部署 linux python vscode language model
文章目录一、说明二、配置环境2.1安装虚拟环境2.2安装vllm2.3对应版本的pytorch安装2.4安装flash_attn2.5下载模型三、运行代码3.1启动服务3.2调用代码验证一、说明本文主要介绍vllm本地部署BAAI/bge-reranker-v2-m3模型API服务实战教程本文是在Ubuntu24.04+CUDA12.8+Python3.12环境下复现成功的二、配置环境2.1安装虚
《Effective Python》第十三章测试与调试——使用 pdb 进行交互式调试不学无术の码农 Effective Python 精读笔记 python 开发语言
引言本文基于《EffectivePython:125SpecificWaystoWriteBetterPython,3rdEdition》第十三章：测试与调试中的Item114:ConsiderInteractiveDebuggingwithpdb，旨在系统总结书中关于Python内置调试器pdb的使用方法，结合笔者在实际开发中的调试经验，探讨其应用场景、技巧以及延伸思考。Python开发过程中，
Python装饰器（decorator）
Python装饰器（decorator）是一种高阶函数，用于在不修改原函数代码的情况下，动态地为函数添加额外的功能。它本质上是一个接受函数作为输入并返回新函数的函数，常用于日志记录、性能测试、权限验证等场景。以下是关于Python装饰器的详细讲解：1.基本概念装饰器是一个函数，它接受一个函数作为参数，并返回一个新的函数。新函数通常会在调用原函数前后执行一些额外的逻辑。装饰器的语法糖是@decora
24GB GPU 中的 DeepSeek R1：Unsloth AI 针对 671B 参数模型进行动态量化知识大胖 NVIDIA GPU和大语言模型开发教程人工智能 deepseek ollama
简介最初的DeepSeekR1是一个拥有6710亿个参数的语言模型，UnslothAI团队对其进行了动态量化，将模型大小减少了80%（从720GB减少到131GB），同时保持了强大的性能。当添加模型卸载功能时，该模型可以在24GBVRAM下以低令牌/秒的推理速度运行。推荐文章《本地构建AI智能分析助手之01快速安装，使用PandasAI和Ollama进行数据分析，用自然语言向你公司的数据提问为决策
卫星分析系列之使用卫星图像量化野火烧毁面积在 Google Colab 中使用 Python 使用 Sentinel-2 图像确定森林火灾烧毁面积知识大胖 NVIDIA GPU和大语言模型开发教程 python sentinel 开发语言
简介几年前，当大多数气候模型预测如果我们不采取必要措施，洪水、热浪和野火将会发生更多时，我没想到这些不寻常的灾难现象会成为常见事件。其中，野火每年摧毁大量森林面积。如果你搜索不同地方的重大野火表格，你会发现令人震惊的统计数据，显示由于野火，地球上有多少森林面积正在消失。在本教程中，我将结合我已经发表过的关于下载、处理卫星图像和可视化野火的故事，量化加州发生的其中一场重大野火的烧毁面积。与之前的帖子
使用NVIDIA NeRF将2D图像转换为逼真的3D模型（Python） ByteWhiz 3d python 计算机视觉 Python
使用NVIDIANeRF将2D图像转换为逼真的3D模型（Python）NeuralRadianceFields（NeRF）是一种强大的方法，可以将2D图像转换为逼真的3D模型。它使用神经网络来建模场景的辐射场，并通过渲染多个视角的图像来重建3D模型。在本文中，我们将使用Python和NVIDIANeRF库来实现这一过程。首先，我们需要安装所需的库。我们可以通过以下命令使用pip安装NVIDIANe
【收藏系列】Python 常用装饰器全解析 Gaffey大杂烩 python python 装饰器
Python常用装饰器全解析装饰器是Python中一个强大的特性，它允许我们在不修改原函数或类的情况下，扩展或修改其功能。本文将详细介绍几个最常用的内置装饰器。Python装饰器速查表（一句话用途）装饰器一句话作用概述@classmethod定义一个类方法，第一个参数是类本身（cls），常用于工厂函数或操作类属性。@staticmethod定义一个不依赖实例或类的工具方法，无需self或cls参数
python中plus_Python token.PLUS属性代码示例
#需要导入模块:importtoken[as别名]#或者:fromtokenimportPLUS[as别名]deftest_exact_type(self):self.assertExactTypeEqual('()',token.LPAR,token.RPAR)self.assertExactTypeEqual('[]',token.LSQB,token.RSQB)self.assertExac
三网BGP服务器——CDN加速的底层基石群联云防护小杜安全问题汇总服务器 python 运维游戏安全自动化网络
为什么跨网访问会成为业务性能杀手？场景痛点当电信用户访问联通机房的资源时，平均延迟高达120ms以上，而跨网丢包率可达15%。传统单线机房导致30%的用户体验直接下降。BGP协议的核心价值#三网路由优化模拟器（Python3）importrandomdefbgp_route_selection(user_isp,cdn_nodes):#用户ISP：1=电信2=移动3=联通#节点示例：{'node1
Python入门--day04--Python 推导式、常见语句和内置函数总结 the time zips by #Python基础 python 开发语言
文章目录前言一、推导式1.列表推导式2.集合推导式3.字典推导式4.生成器推导式二、常见语句1赋值语句2.控制语句2.1条件语句2.1.1if-elif-else2.1.2match-case2.2循环语句2.2.1for循环2.2.2while循环2.3循环控制语句2.3.1break2.3.2continue2.3.3pass3.range语句3.函数定义语句4.异常处理语句4.1try-ex
windows exe爬虫：exe抓包程序猿阿三爬虫项目实战 exe抓包
不论任何爬虫，抓包是获取数据最直接和最方便的方式，这章节我们一起看一下windowsexe是如何拦截数据的。用mitmproxy/Charles/Fiddler或Wireshark拦截它的HTTP/HTTPS/TCP流量。如果是HTTPS，安装并信任代理的根证书。由于exe大部分可能走的是自定义应用层协议。在不知情所拦截应用使用的流量时，所以建议用Wireshark。本文利用python代码，实现
PythonDay01
这里写目录标题一、注释1、单行注释2、多行注释二、定义变量1、要求2、代码三、关键字四、print函数五、基本数据类型1、整型2、字符串类型3、小数类型4、布尔类型5、空类型六、类型之间的相互转换1、从字符串转成int类型2、字符串转换成浮点型3、float转换成int4、丢失精度时不会去做四舍五入5、布尔类型七、字符串的常见操作1、split切分2、strip去除字符串两边的隐藏字符3、字符串的
Python Day9
@浙大疏锦行PythonDay9.内容：热力图的绘制enumerate()方法子图的绘制代码：list_nums=[1,2,3,4,5,6]forindex,valinenumerate(list_nums):print(f"index={index},val={val}")forvalinlist_nums:print(f"val={val}")importpandasaspdimportmat
【医学影像】无痛安装mamba 周树皮医学影像 python
去年编辑的一个帖子。摆了一段时间后重新回归，发送一下作为状态分界线。很癫狂的体验，man，whatcanisay！issue查看我的狗急跳墙状态1.确定版本cudanvcc-Vpythonpython--versiontorchpipshowtorch2.下载对应版本wheelcausal-conv1d：https://github.com/Dao-AILab/causal-conv1d/rele
macd的python代码同花顺_同花顺最牛MACD副图源码再来一碗饭
DIFF:EMA(CLOSE,6)-EMA(CLOSE,16),ColorFFFF26;DEA:EMA(DIFF,5),Color8A15FF;MACD:=2*(DIFF-DEA);对DIFF:0-(EMA(CLOSE,6)-EMA(CLOSE,16));对DEA:0-(EMA(DIFF,5));对称:0-(2*(DIFF-DEA)),STICK,ColorFF6060,LINETHICK1;{D
Mamba项目用户指南：高效管理Python环境的利器左松钦Travis
Mamba项目用户指南：高效管理Python环境的利器mambaTheFastCross-PlatformPackageManager项目地址:https://gitcode.com/gh_mirrors/mam/mamba什么是Mamba？Mamba是一个基于Conda的CLI工具，专为高效管理Python环境而设计。它继承了Conda的所有优点，同时在性能上进行了显著优化，特别是在解决依赖关系
【亲测免费】 Mamba：快速跨平台的包管理器林梦雅
Mamba：快速跨平台的包管理器项目基础介绍和主要编程语言Mamba是一个用C++重新实现的Conda包管理器。它旨在提供比传统Conda更快的包管理和依赖解析速度。Mamba的核心部分使用C++编写，以确保高效性和性能。同时，Mamba也使用了Python和其他一些辅助语言来实现其功能。项目核心功能Mamba的核心功能包括：快速依赖解析：利用libsolv库进行高效的依赖解析，这是RedHat、
Elasticsearch搜索引擎存储：从原理到实践的全景解析 Python×CATIA工业智造搜索引擎 elasticsearch 大数据
引言在大数据时代，数据规模呈指数级增长，传统数据库的模糊查询、实时分析能力逐渐成为瓶颈。Elasticsearch（简称ES）凭借其分布式架构、实时搜索和灵活的数据分析能力，成为企业级搜索与存储的核心引擎。截至2025年，ES在全球日志分析、电商搜索、实时监控等场景的市场占有率超过60%。本文将从存储架构、核心技术、应用场景及优化策略四个维度，深入解析Elasticsearch的设计哲学与实践价值
LeetCode第317题_离建筑物最近的距离 @蓝莓果粒茶算法 leetcode linux 算法 c#学习 python c++
LeetCode第317题：离建筑物最近的距离文章摘要本文详细解析LeetCode第317题"离建筑物最近的距离"，这是一道图论和广度优先搜索的问题。文章提供了基于多源BFS的解法，包含C#、Python、C++三种语言实现，配有详细的算法分析和性能对比。适合想要提升图论算法能力的程序员。核心知识点：广度优先搜索、图论、矩阵遍历难度等级：困难推荐人群：具有图论基础，想要提升算法能力的程序员题目描述
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图宁儿数据安全 #机器学习学习笔记 matplotlib
学习笔记(33):matplotlib绘制简单图表-绘制混淆矩阵热图一、绘制混淆矩阵热图代码解析1.1、导入必要的库importmatplotlib.pyplotaspltfromsklearn.metricsimportconfusion_matriximportseabornassnsmatplotlib.pyplot：Python中最常用的绘图库，用于创建各种图表confusion_matr
Python 实战：构建本地多线程定时任务调度器 xiaocainiao881 python 开发语言
引言在企业自动化流程、数据周期更新、本地脚本执行等场景中，定时任务调度器是不可或缺的一类工具。尽管Linux有crontab，Windows有任务计划，但它们不够灵活，缺乏图形界面，不适合动态启停、可视化控制等需求。本文将带你实现一个本地运行的多线程定时任务调度器，具备以下功能：一、项目功能说明1.1功能亮点多任务并行运行（非阻塞）每个任务支持独立间隔设置支持任务启动/停止/删除/修改支持即时日志
【python实战】不玩微博，一封邮件就能知道实时热榜，天秀吃瓜一条coding 从实战学python 人工智能 python linux 爬虫
❤️欢迎订阅《从实战学python》专栏，用python实现办公自动化、数据可视化、人工智能等各个方向的实战案例，有趣又有用！❤️更多精品专栏简介点这里有的人金玉其表败絮其中，有的人却若彩虹般绚烂，怦然心动前言哈喽，大家好，我是一条。在生活中我是一个不太喜欢逛娱乐平台的人，抖音、快手、微博我手机里都没装，甚至微信朋友圈都不看，但是自从开始写博客，有些热度不得不蹭。所以就有了这样一个需求，能不能让微
Java实现的简单双向Map，支持重复Value superlxw1234 java 双向map
关键字：Java双向Map、DualHashBidiMap 有个需求，需要根据即时修改Map结构中的Value值，比如，将Map中所有value=V1的记录改成value=V2，key保持不变。数据量比较大，遍历Map性能太差，这就需要根据Value先找到Key，然后去修改。即：既要根据Key找Value，又要根据Value
PL/SQL触发器基础及例子百合不是茶 oracle数据库触发器 PL/SQL编程
触发器的简介; 触发器的定义就是说某个条件成立的时候，触发器里面所定义的语句就会被自动的执行。因此触发器不需要人为的去调用，也不能调用。触发器和过程函数类似过程函数必须要调用, 一个表中最多只能有12个触发器类型的,触发器和过程函数相似触发器不需要调用直接执行, 触发时间：指明触发器何时执行，该值可取： before：表示在数据库动作之前触发
[时空与探索]穿越时空的一些问题 comsci 问题
我们还没有进行过任何数学形式上的证明,仅仅是一个猜想..... 这个猜想就是; 任何有质量的物体(哪怕只有一微克)都不可能穿越时空,该物体强行穿越时空的时候,物体的质量会与时空粒子产生反应,物体会变成暗物质,也就是说,任何物体穿越时空会变成暗物质..(暗物质就我的理
easy ui datagrid上移下移一行商人shang js 上移下移 easyui datagrid
/** * 向上移动一行 * * @param dg * @param row */ function moveupRow(dg, row) { var datagrid = $(dg); var index = datagrid.datagrid("getRowIndex", row); if (isFirstRow(dg, row)) {
Java反射 oloz 反射
本人菜鸟，今天恰好有时间，写写博客，总结复习一下java反射方面的知识，欢迎大家探讨交流学习指教首先看看java中的Class package demo; public class ClassTest { /*先了解java中的Class*/ public static void main(String[] args) { //任何一个类都
springMVC 使用JSR-303 Validation验证杨白白 spring mvc
JSR-303是一个数据验证的规范，但是spring并没有对其进行实现，Hibernate Validator是实现了这一规范的，通过此这个实现来讲SpringMVC对JSR-303的支持。 JSR-303的校验是基于注解的，首先要把这些注解标记在需要验证的实体类的属性上或是其对应的get方法上。登录需要验证类 public class Login { @NotEmpty
log4j 香水浓 log4j
log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, HTML, DATABASE #log4j.rootCategory=DEBUG, STDOUT, DAILYFILE, ROLLINGFILE, HTML #console log4j.appender.STDOUT=org.apache.log4j.ConsoleAppender log4
使用ajax和history.pushState无刷新改变页面URL agevs jquery 框架 Ajax html5 chrome
表现如果你使用chrome或者firefox等浏览器访问本博客、github.com、plus.google.com等网站时，细心的你会发现页面之间的点击是通过ajax异步请求的，同时页面的URL发生了了改变。并且能够很好的支持浏览器前进和后退。是什么有这么强大的功能呢？ HTML5里引用了新的API，history.pushState和history.replaceState，就是通过
centos中文乱码 AILIKES centos OS ssh
一、CentOS系统访问 g.cn ，发现中文乱码。于是用以前的方式：yum -y install fonts-chinese CentOS系统安装后，还是不能显示中文字体。我使用 gedit 编辑源码，其中文注释也为乱码。后来，终于找到以下方法可以解决，需要两个中文支持的包： fonts-chinese-3.02-12.
触发器 baalwolf 触发器
触发器(trigger)：监视某种情况，并触发某种操作。触发器创建语法四要素：1.监视地点(table) 2.监视事件(insert/update/delete) 3.触发时间(after/before) 4.触发事件(insert/update/delete) 语法： create trigger triggerName after/before
JS正则表达式的i m g bijian1013 JavaScript 正则表达式
g:表示全局（global)模式，即模式将被应用于所有字符串，而非在发现第一个匹配项时立即停止。 i:表示不区分大小写（case-insensitive）模式，即在确定匹配项时忽略模式与字符串的大小写。 m:表示
HTML5模式和Hashbang模式 bijian1013 JavaScript AngularJS Hashbang模式 HTML5模式
我们可以用$locationProvider来配置$location服务（可以采用注入的方式，就像AngularJS中其他所有东西一样）。这里provider的两个参数很有意思，介绍如下。 html5Mode 一个布尔值，标识$location服务是否运行在HTML5模式下。 ha
[Maven学习笔记六]Maven生命周期 bit1129 maven
从mvn test的输出开始说起当我们在user-core中执行mvn test时，执行的输出如下： /software/devsoftware/jdk1.7.0_55/bin/java -Dmaven.home=/software/devsoftware/apache-maven-3.2.1 -Dclassworlds.conf=/software/devs
【Hadoop七】基于Yarn的Hadoop Map Reduce容错 bit1129 hadoop
运行于Yarn的Map Reduce作业，可能发生失败的点包括 Task Failure Application Master Failure Node Manager Failure Resource Manager Failure 1. Task Failure 任务执行过程中产生的异常和JVM的意外终止会汇报给Application Master。僵死的任务也会被A
记一次数据推送的异常解决端口解决 ronin47 记一次数据推送的异常解决
　　需求：从db获取数据然后推送到B 程序开发完成，上jboss,刚开始报了很多错，逐一解决，可最后显示连接不到数据库。机房的同事说可以ping 通。　　自已画了个图，逐一排除，把linux 防火墙　和　setenforce　设置最低。　　　service iptables stop
巧用视错觉-UI更有趣 brotherlamp UI ui视频 ui教程 ui自学 ui资料
我们每个人在生活中都曾感受过视错觉（optical illusion）的魅力。视错觉现象是双眼跟我们开的一个玩笑，而我们往往还心甘情愿地接受我们看到的假象。其实不止如此，视觉错现象的背后还有一个重要的科学原理——格式塔原理。格式塔原理解释了人们如何以视觉方式感觉物体，以及图像的结构，视角，大小等要素是如何影响我们的视觉的。在下面这篇文章中，我们首先会简单介绍一下格式塔原理中的基本概念，
线段树-poj1177-N个矩形求边长（离散化+扫描线） bylijinnan 数据结构算法线段树
package com.ljn.base; import java.util.Arrays; import java.util.Comparator; import java.util.Set; import java.util.TreeSet; /** * POJ 1177 (线段树+离散化+扫描线)，题目链接为http://poj.org/problem?id=1177
HTTP协议详解 chicony http协议
引言
Scala设计模式 chenchao051 设计模式 scala
Scala设计模式我的话：在国外网站上看到一篇文章，里面详细描述了很多设计模式，并且用Java及Scala两种语言描述，清晰的让我们看到各种常规的设计模式，在Scala中是如何在语言特性层面直接支持的。基于文章很nice，我利用今天的空闲时间将其翻译，希望大家能一起学习，讨论。翻译
安装mysql daizj mysql 安装
安装mysql (1)删除linux上已经安装的mysql相关库信息。rpm -e xxxxxxx --nodeps (强制删除) 执行命令rpm -qa |grep mysql 检查是否删除干净 (2)执行命令 rpm -i MySQL-server-5.5.31-2.el
HTTP状态码大全 dcj3sjt126com http状态码
完整的 HTTP 1.1规范说明书来自于RFC 2616，你可以在http://www.talentdigger.cn/home/link.php?url=d3d3LnJmYy1lZGl0b3Iub3JnLw%3D%3D在线查阅。HTTP 1.1的状态码被标记为新特性，因为许多浏览器只支持 HTTP 1.0。你应只把状态码发送给支持 HTTP 1.1的客户端，支持协议版本可以通过调用request
asihttprequest上传图片 dcj3sjt126com ASIHTTPRequest
NSURL *url =@"yourURL"; ASIFormDataRequest*currentRequest =[ASIFormDataRequest requestWithURL:url]; [currentRequest setPostFormat:ASIMultipartFormDataPostFormat];[currentRequest se
C语言中，关键字static的作用 e200702084 C++c C#
在C语言中，关键字static有三个明显的作用： 1)在函数体，局部的static变量。生存期为程序的整个生命周期，（它存活多长时间）；作用域却在函数体内（它在什么地方能被访问（空间））。一个被声明为静态的变量在这一函数被调用过程中维持其值不变。因为它分配在静态存储区，函数调用结束后并不释放单元，但是在其它的作用域的无法访问。当再次调用这个函数时，这个局部的静态变量还存活，而且用在它的访
win7/8使用curl geeksun win7
1. WIN7/8下要使用curl，需要下载curl-7.20.0-win64-ssl-sspi.zip和Win64OpenSSL_Light-1_0_2d.exe。下载地址： http://curl.haxx.se/download.html 请选择不带SSL的版本，否则还需要安装SSL的支持包 2. 可以给Windows增加c
Creating a Shared Repository; Users Sharing The Repository hongtoushizi git
转载自： http://www.gitguys.com/topics/creating-a-shared-repository-users-sharing-the-repository/ Commands discussed in this section: git init –bare git clone git remote git pull git p
Java实现字符串反转的8种或9种方法 Josh_Persistence 异或反转递归反转二分交换反转 java字符串反转栈反转
注：对于第7种使用异或的方式来实现字符串的反转，如果不太看得明白的，可以参照另一篇博客： http://josh-persistence.iteye.com/blog/2205768 /** * */ package com.wsheng.aggregator.algorithm.string; import java.util.Stack; /**
代码实现任意容量倒水问题 home198979 PHP 算法倒水
形象化设计模式实战 HELLO!架构 redis命令源码解析倒水问题：有两个杯子，一个A升，一个B升，水有无限多，现要求利用这两杯子装C
Druid datasource zhb8015 druid
推荐大家使用数据库连接池 DruidDataSource. http://code.alibabatech.com/wiki/display/Druid/DruidDataSource DruidDataSource经过阿里巴巴数百个应用一年多生产环境运行验证，稳定可靠。它最重要的特点是：监控、扩展和性能。下载和Maven配置看这里： http
两种启动监听器ApplicationListener和ServletContextListener spjich java spring 框架
引言:有时候需要在项目初始化的时候进行一系列工作，比如初始化一个线程池，初始化配置文件，初始化缓存等等，这时候就需要用到启动监听器，下面分别介绍一下两种常用的项目启动监听器 ServletContextListener 特点: 依赖于sevlet容器，需要配置web.xml 使用方法: public class StartListener implements
JavaScript Rounding Methods of the Math object 何不笑 JavaScript Math
The next group of methods has to do with rounding decimal values into integers. Three methods — Math.ceil(), Math.floor(), and Math.round() — handle rounding in differen